专栏算法工具链【参考算法】地平线 Bev_mt_lss 参考算法-v1.2.1

【参考算法】地平线 Bev_mt_lss 参考算法-v1.2.1

颜值即正义2023-02-17
1155
16

0 概述

在自动驾驶感知算法中BEV感知成为热点话题,BEV感知可以弥补2D感知的缺陷构建3D“世界”,更有利于下游任务和特征融合。为响应市场需求,地平线集成了基于bev的纯视觉算法,目前已支持ipm-based 、lss-based、 transformer-based(Geometry-guided Kernel Transformer、detr3d) 的多种bev视觉转换方法。本文为lss-based的BEV多任务感知算法介绍和使用说明。

该示例为参考算法,仅作为在J5上模型部署的设计参考,非量产算法

1 性能精度指标

数据集

img_shape

Stage 1

grid_size

num_points

Stage 2

Nuscenes

256x704

Backbone

Neck

128x128

10

Backbone

Neck

efficientnetb0

fastscnn

efficientnetb0

bifpn

注:目前 grid_sample的input_feature H,W ∈ [1, 1024] 且 H* W ≤ 720*1024

性能精度表现:

性能(FPS/单核) 分割精度(浮点/定点)iou 检测精度(浮点/定点) divider ped_crossing Boundary Others NDS mAP 138 46.55/47.45 27.91/ 28.44 47.06/ 46.03 85.59/ 84.49 0.3009/ 0.2990 0.2065/ 0.2066

注:
stage1为image encoder;stage2为bev encoder;
Nuscenes 数据集官方介绍:Nuscenes

2 模型介绍

2.1 模型框架

bev_mt_lss 是基于bev_depth结构实现的,使用多视图的6张RGB图像作为输入,输出是目标的3D Box和BEV分割结果。首先使用2D主干对多视角图像获取2D 特征。然后将img_feature作为depth_net输入获得深度特征,将深度特征和img_encoder_feature 分别转换为BEV视角后生成点云特征,最后,接上任务特定的head,输出多任务结果。模型主要包括以下部分:
Part1—2D Image Encoder:图像特征提取层。使用2D主干网络(efficientnet)和FastSCNN输出不同分辨率的特征图。返回最后一层--下采样至1/16原图大小层,用于下一步投影至3D 坐标系中。
Part2—View transformer:将img_encoder_feature生成深度特征,将深度特征和img_encoder_feature 做bev 空间转换后生成视锥点云特征。
Part3—Bev transforms:对bev特征做数据增强,仅发生在训练阶段。
Part4—3D BEV Encoder:BEV特征提取层。
Part5—BEV Decoder:分为Detection Head和Segmentation Head。得到统一的BEV特征后,使用DepthwiseSeparableFCNHead进行bev分割,分割种类为["others", "divider", "ped_crossing", "Boundary"]。使用DepthwiseSeparableCenterPointHead进行3D目标检测任务,检测的类别为["car","truck","bus","barrier","bicycle","pedestrian"]。

1.2 源码说明

Config文件

configs/bev/bev_mt_lss_efficientnetb0_nuscenes.py 为该模型的配置文件,定义了模型结构、数据集加载,和整套训练流程,所需参数的说明在算子定义中会给出。配置文件主要内容包括:
# 模型结构定义
model = dict(
type="ViewFusion",
backbone=dict(
type="efficientnet",
model_type="b0",
...
),
neck=dict(
type="FastSCNNNeck",
...
),
view_transformer=dict(
type="LSSTransformer", #lss transform
...
)
bev_transforms=[...],
bev_encoder=dict(
type="BevEncoder",
...
),
bev_decoders=[
dict(
type="BevSegDecoder",
...
),
dict(
type="BevDetDecoder",
...

],
)
deploy_model = dict(...)
...
# 数据加载
data_loader = dict(
type=torch.utils.data.DataLoader,
...
)
val_data_loader = dict(...)
#不同step的训练策略配置
float_trainer=dict(...)
calibration_trainer=dict(...)
int_trainer=dict(...)
#精度验证阶段配置
float_predictor=dict(...)
calibration_predictor=dict(...)
int_predictor=dict(...)
#编译配置
compile_cfg = dict(
march=march,
...
)

注: 如果需要复现精度,config中的训练策略最好不要修改,否则可能会有意外的训练情况出现。

img_encoder

来自6个view的image作为输入通过共享的backbone(efficientnet)和neck(FastSCNN)输出经过encoder后的feature,feature_shape为(6*B,C,1/16H,1/16W)。encoder即对多个view的img_feature 做特征提取,过程见下图:

对应代码:hat/models/backbones/efficientnet.py hat/models/necks/fast_scnn.py

view_transformer

bev_mt_lss 使用的转换方法是LSS实现,流程如下图所示:

实现路径在hat/models/task_modules/view_fusion/view_transformer.py 的
LSSTransformer。可将bev_mt_lss的view_transformer分为3个部分:
  1. 生成深度特征

  2. 对深度特征和img_encoder_feature做bev坐标转换

  3. 生成视锥点云特征(frustum features)

接下来将对这三个部分做具体介绍的具体代码实现:

生成深度特征
生成depth为60的depth_feature,对depth_feature计算深度的score值。
对应代码:
depth = self.softmax(self.depth_net(feats))

生成 bev_feature
为了减少mul计算量, 先把深度特征和 feature 分开做bev视角转换:
其中,point的生成在_gen_reference_point,计算逻辑如下:

生成点云特征

为了不遗失坐落在相同voxel中的点云特征,将对每个voxel都采样10次,最终将每个点云特征相加得到128x128x64的BEV特征图:

bev transform

bev的数据增强仅发生在训练过程中,在 BEV 下做了 rotate的数据增强,作用域是 view transformer 的输出。配置如下:

bev_encoder

bev_encoder过程是对bev_feature 做特征提取的过程,backbone为efficientnet-b0,neck为BiFPN。流程见下图:

对应代码:hat/models/task_modules/view_fusion/encoder.py

bev_head

seg_head
本模型的分割头为DepthwiseSeparableFCNHead, conv为SeparableConvModule2d
对应代码:hat/models/task_modules/fcn/head.py
class FCNHead(nn.Module):
def __init__(self,...):
...
def forward(self, inputs: List[torch.Tensor]
):
x = inputs[self.input_index]
x = self.convs(x)
if self.dropout:
x = self.dropout(x)
seg_pred = self.cls_seg(x)
if self.training:
if self.upsample_output_scale:
seg_pred = self.resize(seg_pred)
if self.argmax_output:
seg_pred = seg_pred.argmax(dim=1)
if self.dequant_output:
seg_pred = self.dequant(seg_pred)
return seg_pred

det_head
检测为多task检测,主要分为:

在Nuscenes数据集中,目标的类别一共被分为了6个大类,网络给每一个类都分配了一个head,装在headlist中,而每个head内部都为预测的参数。

bev_det的分割头为DepthwiseSeparableCenterPointHead
对应代码:hat/models/task_modules/centerpoint/head.py
class CenterPointHead(nn.Module):
def __init__(self,...):
self.shared_conv = nn.Sequential(
*(
self._make_conv(
in_channels=in_channels if i == 0 else share_conv_channels,
...
)
for i in range(share_conv_num)
)
)
#head module
for num_cls in num_classes:
heads = copy.deepcopy(common_heads)
heads.update({"heatmap": (num_cls, num_heatmap_convs)})
task_head = self._make_task(
...,
)
self.task_heads.append(task_head)
forward时,经过共享的SeparableConv后,将feature再分别传入task_heads做task_pred。
在hat/models/task_modules/centerpoint/head.py的TaskHead对不同的task定义conv_layers:
class TaskHead(nn.Module):
def __init__(...):
...
for head in self.heads:
classes, num_conv = self.heads[head]
...
#head_conv
for _ in range(num_conv - 1):
conv_layers.append(
self._make_conv(
...
)
)
c_in = head_conv_channels
#cls_layer
conv_layers.append(
ConvModule2d(
in_channels=head_conv_channels,
out_channels=classes,
...
)
)
conv_layers = nn.Sequential(*conv_layers)

bev_decoder

多任务模型的decoder分为分割和检测的解码,在分割任务中使用FCNDecoder,在检测任务中使用
CenterPointDecoder,具体实现流程见下图:
对应代码:
hat/models/task_modules/centerpoint/decoder.py
hat/models/task_modules/fcn/decoder.py

3 浮点模型训练

3.1 Before Start

3.1.1 发布物及环境部署

step1:获取发布物
下载OE包horizon_j5_open_explorer_v$version$.tar.gz,获取方式见地平线开发者社区 OpenExplorer算法工具链 版本发布

step2:解压发布包

解压后文件结构如下:

其中horizon_model_train_sample为参考算法模块,包含以下模块:

step3:拉取docker环境

3.1.2 数据集准备

3.1.2.1 数据集下载

进入nuscenes官网,根据提示完成账户的注册,下载Full dataset(v1.0)、CAN bus expansion和Map expansion(v1.3)这三个项目下的文件。下载后的压缩文件为:

Full dataset(v1.0)包含多个子数据集,如果不需要进行v1.0-trainval数据集的浮点训练和精度验证,可以只下载v1.0-mini数据集进行小场景的训练和验证。

将下载完成的v1.0-trainval01_blobs.tar~v1.0-trainval10_blobs.tar、v1.0-trainval_meta.tar和can_bus.zip进行解压,解压后的目录如下所示:

3.1.2.2 数据集打包

进入 horizon_model_train_sample/scripts 目录,使用以下命令将训练数据集和验证数据集打包,格式为lmdb:
--src-data-dir为解压后的nuscenes数据集目录;
--target-data-dir为打包后数据集的存储目录;
--version 选项为["v1.0-trainval", "v1.0-test", "v1.0-mini"],如果进行全量训练和验证设置为v1.0-trainval,如果仅想了解模型的训练和验证过程,则可以使用v1.0-mini数据集;v1.0-test数据集仅为测试场景,未提供注释。
全量的nuscenes数据集较大,打包时间较长。每打包完100张会在终端有打印提示,其中train打包约28100张,val打包约6000张。
数据集打包命令执行完毕后会在target-data-dir下生成train_lmdb和val_lmdb,train_lmdb和val_lmdb就是打包之后的训练数据集和验证数据集为config中的data_rootdir。

2.1.2.3 meta文件夹构建

在tmp_data/nuscenes 下创建meta文件夹,将v1.0-trainval_meta.tar压缩包解压至meta,得到meta/maps文件夹,再将nuScenes-map-expansion-v1.3.zip压缩包解压至meta/maps文件夹下,解压后的目录结构为:

3.1.3 config配置

在进行模型训练和验证之前,需要对configs文件中的部分参数进行配置,一般情况下,我们需要配置以下参数:

  • device_ids、batch_size_per_gpu:根据实际硬件配置进行device_ids和每个gpu的batchsize的配置;

  • ckpt_dir:浮点、calib、量化训练的权重路径配置,权重下载链接在config文件夹下的README中;

  • data_rootdir:2.1.2.2中打包的数据集路径配置;

  • meta_rootdir :2.1.2.3中创建的meta文件夹的路径配置;

  • float_trainer下的checkpoint_path:浮点训练时backbone的预训练权重所在路径,可以使用README的# Backbone Pretrained ckpt中ckpt download提供的float-checkpoint-best.pth.tar权重文件。

3.2 浮点模型训练

config文件中的参数配置完成后,使用以下命令训练浮点模型:

float训练后模型ckpt的保存路径为config配置的ckpt_callback中save_dir的值,默认为ckpt_dir。

3.3 浮点模型精度验证

浮点模型训练完成以后,通过指定训好的float_checkpoint_path,使用以下命令验证已经训练好的模型精度:

验证完成后,会在终端打印浮点模型在验证集上检测和分割精度,如下所示:

4 模型量化和编译

完成浮点训练后,还需要进行量化训练和编译,才能将定点模型部署到板端。地平线对该模型的量化采用horizon_plugin框架,经过Calibration+定点模型转换后,使用compile的工具将量化模型编译成可以上板运行的hbm文件。

4.1 Calibration

模型改造完成并完成浮点训练后,便可进行 Calibration。此过程通过在模型中插入 Observer 的方式,在 forward 过程中统计各处的数据分布情况,从而计算出合理的量化参数。和浮点训练的方式一样,将checkpoint_path指定为训好的浮点权重路径。 通过运行下面的脚本就可以开启模型的Calibration过程:

4.2 Calibration 模型精度验证

calibration完成以后,可以使用以下命令验证经过calib后模型的精度:

验证完成后,会在终端输出calib模型在验证集上检测和分割精度,格式见3.3。
对于LSS模型,仅需做calib 即可满足量化精度,无需做qat训练!

4.3 量化模型精度验证

指定calibration-checkpoint后,通过运行以下命令进行量化模型的精度验证:

验证完成后,会在终端输出int模型在验证集上检测和分割精度,格式见3.3。

4.4 仿真上板精度验证

除了上述模型验证之外,我们还提供和上板完全一致的精度验证方法,可以通过下面的方式完成:

4.5 量化模型编译

在训练完成之后,可以使用compile的工具用来将量化模型编译成可以上板运行的hbm文件,同时该工具也能预估在BPU上的运行性能,可以采用以下脚本:
--opt为优化等级,取值范围为0~3,数字越大优化等级越高,编译时间也会越长;
可以指定--out_dir为编译后产出物的存放路径,默认在ckpt_dir的compile文件夹下

运行后,ckpt_dir的compile目录下会产出以下文件:

5 其他工具

5.1 结果可视化

如果你希望可以看到训练出来的模型单帧的检测效果,我们的tools文件夹下面同样提供了预测及可视化的脚本,你只需要运行以下脚本即可:

注:由于开发机配置不同,plt.show可能不会正常显像,可以在hat/visualize/nuscenes.py添加plt.savefig将结果保存。

可视化示例:

6 板端部署

6.1 上板性能实测

使用hrt_model_exec perf工具将生成的.hbm文件上板做BPU性能FPS实测,hrt_model_exec perf参数如下:

6.2 AIBenchmark 示例

OE开发包中提供了LSS的AI Benchmark示例,位于:ddk/samples/ai_benchmark/j5/qat/script/bev/bev_mt_lss,具体使用可以参考开发者社区J5算法工具链产品手册-AIBenchmark评测示例

可在板端使用以下命令执行做模型评测:
运行后会在终端打印出fps和latency数据。如果要进行精度评测,请参考开发者社区J5算法工具链产品手册-AIBenchmark示例精度评测 进行数据的准备和模型的推理。
算法工具链
征程5官方教程
+7
评论7
0/1000
  • 小白学编程
    Lv.1

    请问这个示例是否支持半精度训练?

    2023-04-22
    0
    2
    • 颜值即正义回复小白学编程:

      是支持的,config 中配置enable_amp = True 即可开启半精度训练

      2023-04-23
      0
    • 小白学编程回复颜值即正义:

      您好,感谢回复,还有个问题,例程中给出的efficientnet-b0的预训练模型和github上官方的有区别吗,我尝试将backbone换成efficientnet-b4,预训练模型用的github上下载的,但是指标似乎并没有地平线提供的efficientnet-b0高,请问是怎么回事呢?

      2023-04-29
      0
  • 空之梦境
    Lv.1

    请教下,上文中的性能fps,指的是frame per second,但是bev一个batch有6张图,所以上面138 fps是1s能跑6张图,还是1s跑138个batch?

    2023-06-05
    0
    2
    • 颜值即正义回复空之梦境:

      FPS数据是推理一次是6张图,所以是一帧的batch是6

      2023-06-05
      0
    • mtt6666回复颜值即正义:

      所以fps是指1s处理138*6 batch?

      2023-06-07
      0
  • lllzd
    Lv.1

    您好,请问这个export_onnx.py导出onnx文件的配置文件onnx_cfg在哪里呢,最新的配置文件bev_mt_lss.py中并没有关于onnx_cfg的配置,导致无法运行

    2023-06-29
    0
    2
    • 颜值即正义回复lllzd:

      你好,是在config中自己添加的

      2023-06-30
      0
    • lllzd回复颜值即正义:

      嗯嗯,请问这个自己添加的有具体的参考文件吗

      2023-07-10
      0
  • ytwanghaoyu
    Lv.1

    链接访问不了

    https://developer.horizon.ai/api/v1/fileData/horizon_j5_reference_package_release_v1_6_16/index.html/

    2023-03-10
    0
    1
    • 颜值即正义回复ytwanghaoyu:

      您好,请联系项目对接人申请VIP账号即可获取BEV发布包和参考算法全部内容。

      2023-03-14
      0
  • TJRadarLab
    Lv.1
    已经申请VIP账号,链接还是访问不了
    https://developer.horizon.ai/api/v1/fileData/horizon_j5_reference_package_release_v1_6_16/index.html/
    2023-04-19
    0
    1
    • 颜值即正义回复TJRadarLab:
      您好,您当前账号依旧是普通账号哈,建议您联系项目对接人申请给社区账号添加VIP权限。
      2023-04-19
      0
  • 小白学编程
    Lv.1

    您好,lss例程中给出的efficientnet-b0的预训练模型和github上官方的有区别吗,我尝试将backbone换成efficientnet-b4,预训练模型用的github上下载的,但是指标似乎并没有地平线提供的efficientnet-b0高,请问是怎么回事呢?

    2023-05-04
    0
    1
    • 颜值即正义回复小白学编程:
      您好,工具链提供的lss的efficientnet与公版的区别为:未使用SE结构(use_se_block=False),激活函数为relu(activation="relu"
      2023-05-04
      0
  • 事已至此先睡觉吧
    Lv.1

    您好 我修改了障碍物的检测范围,修改后训练过程中各类障碍物的ap,mAP与NDS值一直为零,请问问题会是出现在什么地方?文章中“如果需要复现精度,config中的训练策略最好不要修改,否则可能会有意外的训练情况出现”,修改检测范围属于修改训练策略吗?

    2026-01-13
    0
    0