像素到规划：特斯拉BEV感知与端到端的实现

特斯拉的自动驾驶方案，其核心在于如何将8个摄像头的2D像素，转化为一个可供规划决策的统一3D世界模型。这个模型的基础，就是BEV（鸟瞰图）感知。

1. BEV感知：从2D图像到3D世界的构建

传统的图像拼接（Stitching）方案，强依赖于“平地假设”，在真实世界中效果有限。特斯拉的方案，是直接用神经网络学习从2D到3D的映射。

技术核心：从LSS到Transformer的演进
1. 早期思路 (LSS – Lift, Splat, Shoot)：这是业界BEV感知的开创性思路。
  - Lift (提拉)：网络对每个2D像素，预测一个深度分布。然后，将这个像素的特征，根据深度分布，“提拉”到摄像头坐标系下的3D空间中，形成一堆带特征的3D点云。
  - Splat (拍扁/溅射)：将这些3D特征点，通过坐标变换，投影（或“拍扁”）到一个统一的、离散化的BEV栅格地图上。
  - Shoot (发射)：在BEV特征图上，用一个卷积网络进行后续的感知任务（如分割、检测）。
  - 局限：严重依赖于中间步骤的深度预测精度，误差会累积。
2. 特斯拉的方案 (Transformer-based)：这是一种更直接、更端到端的BEV生成方式，绕开了显式的深度预测。
  - 输入：8路摄像头的图像，各自通过一个CNN骨干网络，提取出多尺度的2D特征图。
  - 引入BEV Query：系统预先定义一组BEV空间下的“查询点（Queries）”。可以理解为，模型在BEV空间的每个网格点上，主动发问：“我这个位置上，有什么东西？”
  - 核心机制：交叉注意力 (Cross-Attention)：每个BEV查询点，作为一个Query，会去“关注”所有8个摄像头的2D特征图（作为Key和Value）。通过注意力机制，它能自动学习到应该从哪些摄像头的哪些像素上，提取最相关的信息来描述自己这个BEV位置。
  - 输出：经过Transformer解码器处理后，这些BEV查询点就携带了融合多视角信息的上下文特征，最终构成一个信息密度极高的BEV特征图。
时序融合：让世界“动”起来 单帧的BEV是静态的。为了理解物体的运动状态（速度、加速度），必须引入时间维度。
- 方法：将当前帧生成的BEV特征图，与上一时刻的BEV特征图进行对齐（根据车辆自身的运动），然后送入一个时序融合模块（如ConvLSTM或3D卷积），最终输出一个融合了时序信息的、动态的BEV特征图。这个特征图不仅知道“有什么”，还知道“它在怎么动”。

2. BEV之上的感知输出：占据网络与向量空间

有了这个动态的BEV特征图，就可以做各种下游任务。

占据网络 (Occupancy Network)：
- 目标：预测通用障碍物。
- 输出：一个稠密的3D体素栅格 (X, Y, Z)，每个体素包含两个概率：被占据的概率 和 流速（Flow）。
- 意义：这是系统的安全底座。它不关心障碍物是什么（语义），只关心空间是否可通行。这对于处理掉落的轮胎、施工路障等长尾问题至关重要。
向量空间 (Vector Space)：
- 目标：预测结构化的道路元素。
- 输出：一系列直接用于规划的几何向量。例如，一条车道线不再是像素，而是直接由一个Transformer解码器（类似DETR）输出其三次样条曲线的控制点。
- 意义：极大简化了后处理，输出结果（如车道线、路沿、停止线）直接就是规划模块的输入，高效且精准。

3. 特斯拉的“端到端”：非典型路径

“真·端到端” 指的是 像素 -> 控制指令（方向盘转角、加减速）。目前，特斯拉的量产方案并未采用这种纯粹的端到端。

其系统仍然是模块化的：感知 -> 规划 -> 控制。

但是，它的规划模块正在走向端到端，这是一种更务实的“混合式”端到端。

特斯拉的端到端规划技术：
1. 输入：不再是工程师手写规则，而是将上游感知模块输出的整个BEV特征图、占据网络和向量空间，作为一个巨大的上下文（Context），直接灌入规划网络。
2. 网络结构：同样是一个Transformer模型。它将BEV上下文、导航指令（如“前方路口左转”）、车辆当前状态作为输入。
3. 输出：不再是单一的最优轨迹，而是直接输出一个包含数百条候选轨迹的集合。每一条轨迹都是一条完整的时空曲线（x, y, θ, t），并附带一个成本（Cost）。
  - 这个成本由网络自行学习，隐式地包含了对安全性、舒适性、合规性的综合考量。
4. 决策：最终的决策过程变得极其简单：只需从这数百条候选轨迹中，选择成本最低且不会与占据网络发生碰撞的那一条，然后将其发送给控制模块执行。
为何如此？
- 可解释性：纯粹的“像素到控制”是个黑箱，出了问题难以归因。而“感知-规划-控制”的架构，每个模块的输入输出都是明确的，便于调试和验证。
- 数据驱动：特斯拉的规划器，通过学习数百万英里的人类驾驶数据，学会了在复杂的交通场景中如何“博弈”和做决策。它比手工编写的规则集，能更好地处理长尾场景。

总结：

特斯拉的BEV感知，通过Transformer实现了从多视角2D图像到统一3D空间的直接、高效映射。

其端到端方案，并非行业最初设想的“像素到控制”，而是一种“感知到规划”的端到端。它用一个强大的神经网络替代了传统规划模块中复杂的、基于规则的逻辑，让系统直接从海量数据中学习驾驶决策。这既保留了系统的模块化和可解释性，又享受了端到端学习带来的强大泛化能力。

已发布

2025年 1月 31日

分类

Algo, 科普

来自

tangguofang

标签：

bev, Tesla 特斯拉, 端到端

生命体验家

像素到规划：特斯拉BEV感知与端到端的实现

1. BEV感知：从2D图像到3D世界的构建

2. BEV之上的感知输出：占据网络与向量空间

3. 特斯拉的“端到端”：非典型路径

评论

发表回复取消回复

像素到规划：特斯拉BEV感知与端到端的实现

1. BEV感知：从2D图像到3D世界的构建

2. BEV之上的感知输出：占据网络与向量空间

3. 特斯拉的“端到端”：非典型路径

评论

发表回复 取消回复

发表回复取消回复