智能驾驶感知算法的演进
从 2D 感知到 BEV 世界模型
一、问题的本质:自动驾驶究竟要“理解”什么
智能驾驶中的感知算法,并不是单纯回答“画面里有什么”,而是要回答三个更困难的问题:
世界在三维空间中是什么样的
不同传感器看到的是否是同一个世界
这个世界在时间维度上如何连续变化
BEV(Bird’s Eye View)路线的出现,本质上是一场从图像认知到世界建模的范式迁移。
二、2D Image-space 感知:从“能识别”开始,但止步于图像
1. 典型范式
最早一代智驾感知算法几乎全部工作在 Image-space:
输入:单目或多目 RGB 图像
输出:2D bounding box、2D segmentation mask
核心任务:检测车辆、行人、交通标志

2. 这一代真正解决了什么问题
2D 感知第一次让自动驾驶系统具备了“看懂画面”的能力:
能稳定识别物体类别
能在复杂背景中找到关键目标
能在消费级算力上实时运行
这是必要的一步,没有这一代,后续所有感知算法都无从谈起。
3. 根本性缺陷
Image-space 感知存在无法通过模型规模解决的结构性问题:
没有真实几何
多相机之间缺乏统一坐标系
所有空间关系只是投影结果
Image-space 感知并不真正理解世界,而是在理解像素。
三、LiDAR-first 时代:几何优先,但语义不足
1. 点云带来的改变
LiDAR 的引入让感知系统第一次拥有真实三维信息:
点云天然位于世界坐标系
距离、尺寸、位置无需推测
3D Box 成为可能

2. 解决的关键问题
准确的空间几何
稳定的目标定位
易于与规划模块对接
在空间可信度上,LiDAR-first 路线显著优于纯视觉。
3. 局限性
成本与功耗高
点云语义信息稀疏
视觉信息利用不足
单一传感器难以同时满足几何与语义需求。
四、BEV:统一世界坐标系的关键一步

BEV(Bird’s Eye View)不是一种模型,而是一种世界表示方式:
所有感知结果统一到俯视视角
多相机天然对齐
空间关系直观,利于规划与预测
BEV 的出现,标志着感知开始围绕“决策友好性”设计。
1. 第一代 BEV 的实现方式
早期 BEV 依赖显式几何:
深度估计
相机标定
投影矩阵
通过 image → depth → world → BEV 的方式完成映射。
2. 暴露的问题
深度误差被放大
对噪声极其敏感
单帧 BEV 抖动明显
问题不在 BEV,而在从 image 到 BEV 的方式。
五、BEVFormer:让模型学习投影关系
BEVFormer 的核心思想是:
不再显式计算深度,而是让模型学习 BEV 与图像之间的对应关系。
1. 核心机制
BEV Query:BEV 空间中的查询点
Spatial Cross-Attention:BEV 与多相机特征交互
Temporal Self-Attention:引入历史 BEV
2. 带来的突破
摆脱显式深度建模
自动学习复杂投影关系
时序建模提升稳定性
BEVFormer 让 camera-only BEV 感知在精度上具备竞争力。
3. 新问题
Transformer 计算复杂
显存与算力消耗大
工程部署成本高
BEVFormer 是算法正确性的高峰,但也引入了工程压力。
六、BEVFusion:多模态 BEV 的系统化尝试
1. 出发点
BEVFusion 试图在 BEV 空间融合两者优势。
2. 核心思想
Camera → BEV
LiDAR → BEV
在 BEV 空间完成融合
3. 优势
几何稳定性提升
多模态互补自然
极端场景鲁棒性更强
4. 代价
模型结构复杂
多分支系统维护成本高
推理链路变长
BEVFusion 提升了系统完整性,但工程复杂度显著上升。
七、Sparse4D:向现实系统妥协的 BEV
1. 核心判断
Dense BEV 中,大多数网格并无有效信息,计算存在浪费。
2. 核心变化
Dense BEV → Sparse 表示
空间建模 → Object-centric 建模
强调时序一致性
3. 解决的问题
显著降低计算量
更易满足实时性
更接近可部署系统需求
4. 取舍
全局建模能力下降
更依赖 tracking 与初始化
系统设计复杂度提升
Sparse4D 是工程理性下的选择。
八、数据与传感器:算法演进的真正推手
1. 数据集演进
单帧 → 长时序
单传感器 → 多模态
公共数据 → 私有闭环
数据形态直接塑造算法结构。
2. 传感器现实约束
Camera 数量增加
LiDAR 成本博弈
Radar 作为补充角色
这些现实因素持续影响 BEV 路线的取舍。
九、结语:BEV 是基础设施,而不是终点
BEV 的意义不在于某个具体模型,而在于:
自动驾驶系统第一次拥有了统一的世界表示。
未来模型名称可能变化,但在世界坐标系中建模、在时间维度中理解世界,将成为不可逆的方向。
