J6 dyt算子替换layernorm性能 - 地平线开发者社区

一、算子对比

Transfrom架构中，常用的layernorm算子，可以加速网络收敛，提出的dyt算子不仅

可以实现layernorm的这个归一化过程，同时在模型精度上会更加优秀，计算性能也更少，相关关于模型精度问题，请查阅相关论文与实验指标对比。

在J6系列中，layernorm算子被拆分如下小算子：

Dyt算子组合如下：

Layernorm默认就是限制int16量化类型，为了对齐实验，当前dyt也采用int16做量化，同时从整体来说，可以看到dyt算子很简洁，对性能是有大幅度提升的。

二、关键代码

1. 代码模块与网络构建

三、性能对比

1、 LayerNorm性能测试

2、 Dyt性能测试

3、对比两个性能报告，可以看到dyt的耗时降低0.7ms，当前网络的norm层不算多，对于整个模型架构来说，性能收益会更加明显，模块改造进入整体网络得工作量也不太大，如果压缩模型耗时同时不修改模型整体结构，可以从这点入手