你好,从设计上Layernorm和softmax是通过VPU进行加速的,另外,算子的加速实现是工具链编译优化的同学重点关注的。 从用户使用面只需要根据编译结果查看加速器件事BPU,另外精度是OK的就可以了,无需关心执行计算的具体器件,