BEVDet模型代码解析与实现细节

一、模型架构概述BEVDet采用四阶段处理流程完成3D目标检测任务：

Image-view Encoder：对环视相机图像进行特征提取
View Transformer：将图像视角特征转换为鸟瞰图(BEV)特征
BEV Encoder：对BEV特征进行编码增强
Head：完成最终的目标检测
Description

该架构通过view transformer生成显式的BEV特征表示，其形式类似于点云特征。为了提升性能，模型采用CUDA加速voxel pooling操作，并在检测头中使用优化的NMS算法。

1.tools/test.py 测试入口

2.mmdet3d/apis/test.py 推理调度

3.mmdet3d/models/detectors/bevdet.py BEVDet主体实现

3.1.mmdet3d/models/necks/view_transformer.py
Voxel pooling的关键步骤为voxel_pooling_prepare_v2，为了更好的理解，在代码下方准备了图例来进行理解。

Voxel Pooling 图例

3.2.mmdet3d/ops/bev_pool_v2/src/bev_pool_cuda.cu

通过对BEVDet的了解，进一步理解了LSS的思想，同时也理解了Voxel Pooling中的各种操作，后续希望能够再深入了解几篇自顶而下的论文，如PETR\PETRv2等。