专栏感知智能驾驶感知算法的演进

智能驾驶感知算法的演进

YCJ2026-01-29
52
0

智能驾驶感知算法的演进

从 2D 感知到 BEV 世界模型

Description

一、问题的本质:自动驾驶究竟要“理解”什么

智能驾驶中的感知算法,并不是单纯回答“画面里有什么”,而是要回答三个更困难的问题:

  1. 世界在三维空间中是什么样的

  2. 不同传感器看到的是否是同一个世界

  3. 这个世界在时间维度上如何连续变化

早期感知算法的发展,很长一段时间都停留在“看清楚图像内容”,而不是“理解真实世界结构”。
BEV(Bird’s Eye View)路线的出现,本质上是一场从图像认知到世界建模的范式迁移

二、2D Image-space 感知:从“能识别”开始,但止步于图像

1. 典型范式

最早一代智驾感知算法几乎全部工作在 Image-space:

  • 输入:单目或多目 RGB 图像

  • 输出:2D bounding box、2D segmentation mask

  • 核心任务:检测车辆、行人、交通标志

这一阶段的算法高度继承了通用计算机视觉的发展成果,如 Faster R-CNN、YOLO、Mask R-CNN 等。
Description

2. 这一代真正解决了什么问题

2D 感知第一次让自动驾驶系统具备了“看懂画面”的能力:

  • 能稳定识别物体类别

  • 能在复杂背景中找到关键目标

  • 能在消费级算力上实时运行

这是必要的一步,没有这一代,后续所有感知算法都无从谈起。

3. 根本性缺陷

Image-space 感知存在无法通过模型规模解决的结构性问题:

  • 没有真实几何

  • 多相机之间缺乏统一坐标系

  • 所有空间关系只是投影结果

Image-space 感知并不真正理解世界,而是在理解像素。


三、LiDAR-first 时代:几何优先,但语义不足

1. 点云带来的改变

LiDAR 的引入让感知系统第一次拥有真实三维信息:

  • 点云天然位于世界坐标系

  • 距离、尺寸、位置无需推测

  • 3D Box 成为可能

VoxelNet、PointPillars、SparseConv 等方法逐渐成为主流。
Description

2. 解决的关键问题

  • 准确的空间几何

  • 稳定的目标定位

  • 易于与规划模块对接

在空间可信度上,LiDAR-first 路线显著优于纯视觉。

3. 局限性

  • 成本与功耗高

  • 点云语义信息稀疏

  • 视觉信息利用不足

单一传感器难以同时满足几何与语义需求。


四、BEV:统一世界坐标系的关键一步

Description

BEV(Bird’s Eye View)不是一种模型,而是一种世界表示方式:

  • 所有感知结果统一到俯视视角

  • 多相机天然对齐

  • 空间关系直观,利于规划与预测

BEV 的出现,标志着感知开始围绕“决策友好性”设计。

1. 第一代 BEV 的实现方式

早期 BEV 依赖显式几何:

  • 深度估计

  • 相机标定

  • 投影矩阵

通过 image → depth → world → BEV 的方式完成映射。

2. 暴露的问题

  • 深度误差被放大

  • 对噪声极其敏感

  • 单帧 BEV 抖动明显

问题不在 BEV,而在从 image 到 BEV 的方式。


五、BEVFormer:让模型学习投影关系

BEVFormer 的核心思想是:

不再显式计算深度,而是让模型学习 BEV 与图像之间的对应关系。

1. 核心机制

  • BEV Query:BEV 空间中的查询点

  • Spatial Cross-Attention:BEV 与多相机特征交互

  • Temporal Self-Attention:引入历史 BEV

2. 带来的突破

  • 摆脱显式深度建模

  • 自动学习复杂投影关系

  • 时序建模提升稳定性

BEVFormer 让 camera-only BEV 感知在精度上具备竞争力。

3. 新问题

  • Transformer 计算复杂

  • 显存与算力消耗大

  • 工程部署成本高

BEVFormer 是算法正确性的高峰,但也引入了工程压力。


六、BEVFusion:多模态 BEV 的系统化尝试

1. 出发点

Camera 语义强但几何不稳,LiDAR 几何稳但语义弱。
BEVFusion 试图在 BEV 空间融合两者优势。

2. 核心思想

  • Camera → BEV

  • LiDAR → BEV

  • 在 BEV 空间完成融合

3. 优势

  • 几何稳定性提升

  • 多模态互补自然

  • 极端场景鲁棒性更强

4. 代价

  • 模型结构复杂

  • 多分支系统维护成本高

  • 推理链路变长

BEVFusion 提升了系统完整性,但工程复杂度显著上升。


七、Sparse4D:向现实系统妥协的 BEV

1. 核心判断

Dense BEV 中,大多数网格并无有效信息,计算存在浪费。

2. 核心变化

  • Dense BEV → Sparse 表示

  • 空间建模 → Object-centric 建模

  • 强调时序一致性

3. 解决的问题

  • 显著降低计算量

  • 更易满足实时性

  • 更接近可部署系统需求

4. 取舍

  • 全局建模能力下降

  • 更依赖 tracking 与初始化

  • 系统设计复杂度提升

Sparse4D 是工程理性下的选择。


八、数据与传感器:算法演进的真正推手

1. 数据集演进

  • 单帧 → 长时序

  • 单传感器 → 多模态

  • 公共数据 → 私有闭环

数据形态直接塑造算法结构。

2. 传感器现实约束

  • Camera 数量增加

  • LiDAR 成本博弈

  • Radar 作为补充角色

这些现实因素持续影响 BEV 路线的取舍。


九、结语:BEV 是基础设施,而不是终点

BEV 的意义不在于某个具体模型,而在于:

自动驾驶系统第一次拥有了统一的世界表示。

未来模型名称可能变化,但在世界坐标系中建模、在时间维度中理解世界,将成为不可逆的方向。

感知
技术深度解析
评论0
0/1000