专栏算法工具链J6 dyt算子替换layernorm性能

J6 dyt算子替换layernorm性能

y19002025-11-26
81
0

一、            算子对比

Transfrom架构中,常用的layernorm算子,可以加速网络收敛,提出的dyt算子不仅
可以实现layernorm的这个归一化过程,同时在模型精度上会更加优秀,计算性能也更少,相关关于模型精度问题,请查阅相关论文与实验指标对比。
         在J6系列中,layernorm算子被拆分如下小算子:
         Dyt算子组合如下:
         Layernorm默认就是限制int16量化类型,为了对齐实验,当前dyt也采用int16做量化,同时从整体来说,可以看到dyt算子很简洁,对性能是有大幅度提升的。

二、            关键代码

1.       代码模块与网络构建

 

三、            性能对比

1、 LayerNorm性能测试
2、 Dyt性能测试
       3、对比两个性能报告,可以看到dyt的耗时降低0.7ms,当前网络的norm层不算多,对于整个模型架构来说,性能收益会更加明显,模块改造进入整体网络得工作量也不太大,如果压缩模型耗时同时不修改模型整体结构,可以从这点入手
算法工具链
征程6技术深度解析官方教程
评论0
0/1000