智能驾驶感知算法的演进

从 2D 感知到 BEV 世界模型

一、问题的本质：自动驾驶究竟要“理解”什么

智能驾驶中的感知算法，并不是单纯回答“画面里有什么”，而是要回答三个更困难的问题：

世界在三维空间中是什么样的
不同传感器看到的是否是同一个世界
这个世界在时间维度上如何连续变化

早期感知算法的发展，很长一段时间都停留在“看清楚图像内容”，而不是“理解真实世界结构”。
BEV（Bird’s Eye View）路线的出现，本质上是一场从图像认知到世界建模的范式迁移。

二、2D Image-space 感知：从“能识别”开始，但止步于图像

1. 典型范式

最早一代智驾感知算法几乎全部工作在 Image-space：

输入：单目或多目 RGB 图像
输出：2D bounding box、2D segmentation mask
核心任务：检测车辆、行人、交通标志

这一阶段的算法高度继承了通用计算机视觉的发展成果，如 Faster R-CNN、YOLO、Mask R-CNN 等。
Description

2. 这一代真正解决了什么问题

2D 感知第一次让自动驾驶系统具备了“看懂画面”的能力：

能稳定识别物体类别
能在复杂背景中找到关键目标
能在消费级算力上实时运行

这是必要的一步，没有这一代，后续所有感知算法都无从谈起。

3. 根本性缺陷

Image-space 感知存在无法通过模型规模解决的结构性问题：

没有真实几何
多相机之间缺乏统一坐标系
所有空间关系只是投影结果

Image-space 感知并不真正理解世界，而是在理解像素。

三、LiDAR-first 时代：几何优先，但语义不足

1. 点云带来的改变

LiDAR 的引入让感知系统第一次拥有真实三维信息：

点云天然位于世界坐标系
距离、尺寸、位置无需推测
3D Box 成为可能

VoxelNet、PointPillars、SparseConv 等方法逐渐成为主流。
Description

2. 解决的关键问题

准确的空间几何
稳定的目标定位
易于与规划模块对接

在空间可信度上，LiDAR-first 路线显著优于纯视觉。

3. 局限性

成本与功耗高
点云语义信息稀疏
视觉信息利用不足

单一传感器难以同时满足几何与语义需求。

四、BEV：统一世界坐标系的关键一步

BEV（Bird’s Eye View）不是一种模型，而是一种世界表示方式：

所有感知结果统一到俯视视角
多相机天然对齐
空间关系直观，利于规划与预测

BEV 的出现，标志着感知开始围绕“决策友好性”设计。

1. 第一代 BEV 的实现方式

早期 BEV 依赖显式几何：

深度估计
相机标定
投影矩阵

通过 image → depth → world → BEV 的方式完成映射。

2. 暴露的问题

深度误差被放大
对噪声极其敏感
单帧 BEV 抖动明显

问题不在 BEV，而在从 image 到 BEV 的方式。

五、BEVFormer：让模型学习投影关系

BEVFormer 的核心思想是：

不再显式计算深度，而是让模型学习 BEV 与图像之间的对应关系。

1. 核心机制

BEV Query：BEV 空间中的查询点
Spatial Cross-Attention：BEV 与多相机特征交互
Temporal Self-Attention：引入历史 BEV

2. 带来的突破

摆脱显式深度建模
自动学习复杂投影关系
时序建模提升稳定性

BEVFormer 让 camera-only BEV 感知在精度上具备竞争力。

3. 新问题

Transformer 计算复杂
显存与算力消耗大
工程部署成本高

BEVFormer 是算法正确性的高峰，但也引入了工程压力。

六、BEVFusion：多模态 BEV 的系统化尝试

1. 出发点

Camera 语义强但几何不稳，LiDAR 几何稳但语义弱。
BEVFusion 试图在 BEV 空间融合两者优势。

2. 核心思想

Camera → BEV
LiDAR → BEV
在 BEV 空间完成融合

3. 优势

几何稳定性提升
多模态互补自然
极端场景鲁棒性更强

4. 代价

模型结构复杂
多分支系统维护成本高
推理链路变长

BEVFusion 提升了系统完整性，但工程复杂度显著上升。

七、Sparse4D：向现实系统妥协的 BEV

1. 核心判断

Dense BEV 中，大多数网格并无有效信息，计算存在浪费。

2. 核心变化

Dense BEV → Sparse 表示
空间建模 → Object-centric 建模
强调时序一致性

3. 解决的问题

显著降低计算量
更易满足实时性
更接近可部署系统需求

4. 取舍

全局建模能力下降
更依赖 tracking 与初始化
系统设计复杂度提升

Sparse4D 是工程理性下的选择。

八、数据与传感器：算法演进的真正推手

1. 数据集演进

单帧 → 长时序
单传感器 → 多模态
公共数据 → 私有闭环

数据形态直接塑造算法结构。

2. 传感器现实约束

Camera 数量增加
LiDAR 成本博弈
Radar 作为补充角色

这些现实因素持续影响 BEV 路线的取舍。

九、结语：BEV 是基础设施，而不是终点

BEV 的意义不在于某个具体模型，而在于：

自动驾驶系统第一次拥有了统一的世界表示。

未来模型名称可能变化，但在世界坐标系中建模、在时间维度中理解世界，将成为不可逆的方向。