特斯拉的自动驾驶方案,其核心在于如何将8个摄像头的2D像素,转化为一个可供规划决策的统一3D世界模型。这个模型的基础,就是BEV(鸟瞰图)感知。
1. BEV感知:从2D图像到3D世界的构建
传统的图像拼接(Stitching)方案,强依赖于“平地假设”,在真实世界中效果有限。特斯拉的方案,是直接用神经网络学习从2D到3D的映射。
- 技术核心:从LSS到Transformer的演进
- 早期思路 (LSS – Lift, Splat, Shoot):这是业界BEV感知的开创性思路。
- Lift (提拉):网络对每个2D像素,预测一个深度分布。然后,将这个像素的特征,根据深度分布,“提拉”到摄像头坐标系下的3D空间中,形成一堆带特征的3D点云。
- Splat (拍扁/溅射):将这些3D特征点,通过坐标变换,投影(或“拍扁”)到一个统一的、离散化的BEV栅格地图上。
- Shoot (发射):在BEV特征图上,用一个卷积网络进行后续的感知任务(如分割、检测)。
- 局限:严重依赖于中间步骤的深度预测精度,误差会累积。
- 特斯拉的方案 (Transformer-based):这是一种更直接、更端到端的BEV生成方式,绕开了显式的深度预测。
- 输入:8路摄像头的图像,各自通过一个CNN骨干网络,提取出多尺度的2D特征图。
- 引入BEV Query:系统预先定义一组BEV空间下的“查询点(Queries)”。可以理解为,模型在BEV空间的每个网格点上,主动发问:“我这个位置上,有什么东西?”
- 核心机制:交叉注意力 (Cross-Attention):每个BEV查询点,作为一个Query,会去“关注”所有8个摄像头的2D特征图(作为Key和Value)。通过注意力机制,它能自动学习到应该从哪些摄像头的哪些像素上,提取最相关的信息来描述自己这个BEV位置。
- 输出:经过Transformer解码器处理后,这些BEV查询点就携带了融合多视角信息的上下文特征,最终构成一个信息密度极高的BEV特征图。
- 早期思路 (LSS – Lift, Splat, Shoot):这是业界BEV感知的开创性思路。
- 时序融合:让世界“动”起来 单帧的BEV是静态的。为了理解物体的运动状态(速度、加速度),必须引入时间维度。
- 方法:将当前帧生成的BEV特征图,与上一时刻的BEV特征图进行对齐(根据车辆自身的运动),然后送入一个时序融合模块(如ConvLSTM或3D卷积),最终输出一个融合了时序信息的、动态的BEV特征图。这个特征图不仅知道“有什么”,还知道“它在怎么动”。
2. BEV之上的感知输出:占据网络与向量空间
有了这个动态的BEV特征图,就可以做各种下游任务。
- 占据网络 (Occupancy Network):
- 目标:预测通用障碍物。
- 输出:一个稠密的3D体素栅格
(X, Y, Z)
,每个体素包含两个概率:被占据的概率
和流速(Flow)
。 - 意义:这是系统的安全底座。它不关心障碍物是什么(语义),只关心空间是否可通行。这对于处理掉落的轮胎、施工路障等长尾问题至关重要。
- 向量空间 (Vector Space):
- 目标:预测结构化的道路元素。
- 输出:一系列直接用于规划的几何向量。例如,一条车道线不再是像素,而是直接由一个Transformer解码器(类似DETR)输出其三次样条曲线的控制点。
- 意义:极大简化了后处理,输出结果(如车道线、路沿、停止线)直接就是规划模块的输入,高效且精准。
3. 特斯拉的“端到端”:非典型路径
“真·端到端” 指的是 像素 -> 控制指令(方向盘转角、加减速)
。目前,特斯拉的量产方案并未采用这种纯粹的端到端。
其系统仍然是模块化的:感知 -> 规划 -> 控制。
但是,它的规划模块正在走向端到端,这是一种更务实的“混合式”端到端。
- 特斯拉的端到端规划技术:
- 输入:不再是工程师手写规则,而是将上游感知模块输出的整个BEV特征图、占据网络和向量空间,作为一个巨大的上下文(Context),直接灌入规划网络。
- 网络结构:同样是一个Transformer模型。它将BEV上下文、导航指令(如“前方路口左转”)、车辆当前状态作为输入。
- 输出:不再是单一的最优轨迹,而是直接输出一个包含数百条候选轨迹的集合。每一条轨迹都是一条完整的时空曲线(x, y, θ, t),并附带一个成本(Cost)。
- 这个成本由网络自行学习,隐式地包含了对安全性、舒适性、合规性的综合考量。
- 决策:最终的决策过程变得极其简单:只需从这数百条候选轨迹中,选择成本最低且不会与占据网络发生碰撞的那一条,然后将其发送给控制模块执行。
- 为何如此?
- 可解释性:纯粹的“像素到控制”是个黑箱,出了问题难以归因。而“感知-规划-控制”的架构,每个模块的输入输出都是明确的,便于调试和验证。
- 数据驱动:特斯拉的规划器,通过学习数百万英里的人类驾驶数据,学会了在复杂的交通场景中如何“博弈”和做决策。它比手工编写的规则集,能更好地处理长尾场景。
总结:
特斯拉的BEV感知,通过Transformer实现了从多视角2D图像到统一3D空间的直接、高效映射。
其端到端方案,并非行业最初设想的“像素到控制”,而是一种“感知到规划”的端到端。它用一个强大的神经网络替代了传统规划模块中复杂的、基于规则的逻辑,让系统直接从海量数据中学习驾驶决策。这既保留了系统的模块化和可解释性,又享受了端到端学习带来的强大泛化能力。
发表回复