一、 算子对比
Transfrom架构中,常用的layernorm算子,可以加速网络收敛,提出的dyt算子不仅
可以实现layernorm的这个归一化过程,同时在模型精度上会更加优秀,计算性能也更少,相关关于模型精度问题,请查阅相关论文与实验指标对比。
在J6系列中,layernorm算子被拆分如下小算子:

Dyt算子组合如下:

Layernorm默认就是限制int16量化类型,为了对齐实验,当前dyt也采用int16做量化,同时从整体来说,可以看到dyt算子很简洁,对性能是有大幅度提升的。
二、 关键代码
1. 代码模块与网络构建


三、 性能对比
1、 LayerNorm性能测试


2、 Dyt性能测试


3、对比两个性能报告,可以看到dyt的耗时降低0.7ms,当前网络的norm层不算多,对于整个模型架构来说,性能收益会更加明显,模块改造进入整体网络得工作量也不太大,如果压缩模型耗时同时不修改模型整体结构,可以从这点入手
