0 概述
该示例为参考算法,仅作为在J5上模型部署的设计参考,非量产算法
1 性能精度指标
数据集 | img_shape | Stage 1 | grid_size | Stage 2 | ||||
|---|---|---|---|---|---|---|---|---|
Nuscenes | 512x960 | Backbone | Neck | 输出shape | 64x64 | Backbone | 输出shape | |
mixvargenet | BiFPN | [6,160,32,60] | VargBev | [1,64,128,128] | ||||
性能精度表现:
性能(FPS/单核) 分割精度(浮点/定点) 检测精度(浮点/定点) divider ped_crossing Boundary Others NDS mAP 42 40.60/41.25 25.79/25.90 43.47/42.53 84.22/82.47 0.2811/0.2809 0.1991/0.1983
2 模型介绍
2.1 模型框架

bev_mt_gkt 模型结构图
bev_mt_gkt 使用多视图的当前帧的6个RGB图像作为输入,输出是目标的3D Box和BEV分割结果。多视角图像首先使用2D主干获取2D特征。然后投影到3D BEV视角。接着对BEV feature 编码获取BEV特征。最后,接上任务特定的head,输出多任务结果。gkt的贡献在于使用相机参数作为指导而不过多依赖,对相机偏移产生的影响不敏感,提高模型的鲁棒性。
Part1—2D Image Encoder:图像特征提取层。使用地平线自研的主干网络(mixvargenet)和BiFPN输出不同分辨率的特征图。返回最后一层--下采样至1/16原图大小层,用于下一步投影至3D 坐标系中。
Part2—View transformer:采用gkt transformer映射完成image视角到bev视角的转换。
Part3—Bev transforms:对bev特征做数据增强,仅发生在训练阶段。
Part4—3D BEV Encoder:BEV特征提取层。
Part5—BEV Decoder:分为Detection Head和Segmentation Head。得到统一的BEV特征后,使用FCNHead进行bev分割,分割种类为["others", "divider", "ped_crossing", "Boundary"]。使用VargCenterPointHead进行3D目标检测任务,检测的类别为["car","truck","bus","barrier","bicycle","pedestrian"]。
2.2 源码说明
config文件
model = dict(
type="ViewFusion",
backbone=dict(
type="MixVarGENet",
net_config=[...],
...
),
neck=dict(
type="BiFPN",
...
),
view_transformer=dict(
type="GKTTransformer", #gkt transform
...
),
bev_transforms=[...],
bev_encoder=dict(
type="BevEncoder",
...
),
bev_decoders=[
dict(
type="BevSegDecoder",
...
),
dict(
type="BevDetDecoder",
...
)
],
)
...
)
...
# 数据加载
data_loader = dict(
type=torch.utils.data.DataLoader,
...
)
val_data_loader = dict(...)
float_trainer=dict(...)
calibration_trainer=dict(...)
int_infer_trainer=dict(...)
#不同step的验证
float_predictor=dict(...)
calibration_predictor=dict(...)
int_infer_predictor=dict(...)
#编译配置
compile_cfg = dict(
march=march,
...
)
注:如果需要复现精度,config中的训练策略最好不要修改。否则可能会有意外的训练情况出现。
img_encoder
来自6个view的image作为输入通过共享的backbone(MixVarGENet)和neck(BiFPN)输出经过encoder后的feature,feature_shape为(6*B,C,1/16H,1/16W)。encoder即对多个view的img_feature 做特征提取,过程见下图:

对应代码:
bev_mt_gkt 在img_encoder阶段使用地平线自研的MixVarGENet,MixVarGENet是基于J5芯片计算特性开发的轻量级backbone。具有计算效率高、性能优的基本特点。
该结构的基本单元为MixVarGEBlock。一般情况下,一个stage用一个MixVarGEBlock表示,由head op, stack ops,downsample layers,fusion layers四个基本模块组成。bev_mt_gkt 中的配置见config文件的“backbone”。
view_transformer
该算法参考的gkt,gkt 全称为Geometry-guided Kernel Transformer。Geometry-guided 为基于几何先验在图像特征中寻找reference points,Kernel Transformer为在该reference points处通过预先设置窗口抠取图像特征,并在此基础上使用attention操作实现特征优化,从而获取bev特征的方法。具体实现框架见下图:

gkt 模型框架图
其中BEV Queries 为4维:[1,160,64,64]
其中的shape变化见下图:

其中points的生成在将每个BEV网格coords根据相机内外参数获取采样点coords后,再对附近像素coords Kh×Kw核区域取点,最终的kernel_coords为[kernel_h*kernel_w,6*B,64,64,2]

对应代码实现:
根据kernel_coords使用grid_sample抠取对应的kernel特征然后concat,其中多view的特征融合使用add实现。对应代码实现:

bev transform
bev的数据增强仅发生在训练过程中,在 BEV 下做了 rotate的数据增强,作用域是 view transformer 的输出。配置如下:
bev_encoder
bev_encoder过程是对bev_feature 做特征提取的过程,backbone为VargBevBackbone。流程见下图:

对应代码:
hat/models/task_modules/view_fusion/encoder.py
def __init__(self, **kwargs):
...
def _make_conv(self, in_channels, out_channels):
return BasicVarGBlock(...)
bev_head
本模型的分割头为FCNHead,对应代码:hat/models/task_modules/fcn/head.py
det_head
检测为多task检测,主要分为:
bev_det的分割头为VargCenterPointHead
对应代码:hat/models/task_modules/centerpoint/head.py
def __init__(self,...):
self.shared_conv = nn.Sequential(
*(
self._make_conv(...)
for i in range(share_conv_num)
)
)
#head module
for num_cls in num_classes:
heads = copy.deepcopy(common_heads)
heads.update({"heatmap": (num_cls, num_heatmap_convs)})
task_head = self._make_task(
...,
)
self.task_heads.append(task_head)
在hat/models/task_modules/centerpoint/head.py的TaskHead对不同的task定义conv_layers:
bev_decoder
CenterPointDecoder,具体实现流程见下图:

对应代码:
hat/models/task_modules/fcn/decoder.py
3 浮点模型训练
3.1 Before Start
3.1.1 2.1.1 发布物及环境部署
step2:解压发布包
解压后文件结构如下:
step3:拉取docker环境
3.1.2 数据集准备
3.1.2.1 数据集下载
Full dataset(v1.0)包含多个子数据集,如果不需要进行v1.0-trainval数据集的浮点训练和精度验证,可以只下载v1.0-mini数据集进行小场景的训练和验证。
将下载完成的v1.0-trainval01_blobs.tar~v1.0-trainval10_blobs.tar、v1.0-trainval_meta.tar和can_bus.zip进行解压,解压后的目录如下所示:
3.1.2.2 数据集打包
--src-data-dir为解压后的nuscenes数据集目录;
--target-data-dir为打包后数据集的存储目录;
--version 选项为["v1.0-trainval", "v1.0-test", "v1.0-mini"],如果进行全量训练和验证设置为v1.0-trainval,如果仅想了解模型的训练和验证过程,则可以使用v1.0-mini数据集;v1.0-test数据集仅为测试场景,未提供注释。
全量的nuscenes数据集较大,打包时间较长。每打包完100张会在终端有打印提示,其中train打包约28100张,val打包约6000张。
2.1.2.3 meta文件夹构建
3.1.3 config配置
在进行模型训练和验证之前,需要对configs文件中的部分参数进行配置,一般情况下,我们需要配置以下参数:
device_ids、batch_size_per_gpu:根据实际硬件配置进行device_ids和每个gpu的batchsize的配置;
ckpt_dir:浮点、calib、量化训练的权重路径配置,权重下载链接在config文件夹下的README中;
data_rootdir:2.1.2.2中打包的数据集路径配置;
meta_rootdir :2.1.2.3中创建的meta文件夹的路径配置;
float_trainer下的checkpoint_path:浮点训练时backbone的预训练权重所在路径,可以使用README的# Backbone Pretrained ckpt中ckpt download提供的float-checkpoint-best.pth.tar权重文件。
3.2 浮点模型训练
config文件中的参数配置完成后,使用以下命令训练浮点模型:
float训练后模型ckpt的保存路径为config配置的ckpt_callback中save_dir的值,默认为ckpt_dir。
3.3 浮点模型验证
浮点模型训练完成以后,可以使用以下命令验证已经训练好的浮点模型精度:
4 模型量化和编译
4.1 Calibration
模型完成浮点训练后,便可进行 Calibration。calibration在forward过程中通过统计各处的数据分布情况,从而计算出合理的量化参数。 通过运行下面的脚本就可以开启模型的Calibration过程:
4.2 Calibration 模型精度验证
Calibration完成以后,可以使用以下命令验证经过calib后模型的精度:
对于GKT模型,仅做calib 即可满足量化精度,无需做qat训练!
4.3 量化模型验证
指定calibration-checkpoint后,通过运行以下命令进行量化模型的精度验证:
4.4 仿真上板精度验证
除了上述模型验证之外,我们还提供和上板完全一致的精度验证方法,可以通过下面的方式完成:
4.5 量化模型编译
opt为优化等级,取值范围为0~3,数字越大优化等级越高,编译时间更长,但部署性能更好。
compile_perf脚本将生成.html文件和.hbm文件(compile文件目录下),.html文件为BPU上的运行性能,.hbm文件为上板实测文件。
运行后,ckpt_dir的compile目录下会产出以下文件:
5 其他工具
5.1 结果可视化
如果你希望可以看到训练出来的模型对于单帧的检测效果,我们的tools文件夹下面同样提供了预测及可视化的脚本,你只需要运行以下脚本即可:
注:由于开发机配置不同,plt.show可能不会正常显像,可以在/usr/local/lib/python3.8/dist-packages/hat/visualize/nuscenes.py 尾部添加plt.savefig将结果保存:
可视化示例:

6 板端部署
6.1 上板性能实测
6.2 AIBenchmark 示例
可在板端使用以下命令执行做模型评测:

