专栏算法工具链hbm板端耗时profiling与优化

hbm板端耗时profiling与优化

已解决
李俊何?2025-07-11
95
10
如题,我将模型正常编译之后,在板端的耗时测得12ms,使用 profile_path 工具得到如下信息:
 image 
总的耗时如下:
 image 

目前已知的信息是cpu算子和gpu算子都有较大的latency,我想针对耗时做一些优化,但是目前只有尝试了在compile的时候将opt调整为2,可惜耗时没有明显变化,所以想请教一下,针对板端耗时的优化有什么策略路线或者其他博客资料么~

算法工具链
征程6技术深度解析
评论4
0/1000
  • 李俊何?
    Lv.1

    好像点进来看不到具体评论

    2025-07-11
    0
    2
    • 费小财回复李俊何?:

      你的图片上传有问题,都花了,看看能不能重新上传下

      2025-07-11
      1
    • Huanghui回复李俊何?:

      你重新发布下试试看

      2025-07-11
      1
  • 李俊何?
    Lv.1

    sorry 补上两张图,是关于profiling的耗时分析

    xiaoku_org.svg周末愉快啊 有空再讨论下吧~
    2025-07-11
    0
    0
  • 李俊何?
    Lv.1

    ps: cpu上的算子是scatterND算子导致的, 不知道是否能够有什么替换方式

    2025-07-11
    0
    3
    • Huanghui回复李俊何?:

      主要原因是scatterND算子是非连续、随机写入的。 不符合现代硬件对连续内存访问与并行计算的优化习惯 。

      2025-07-14
      1
    • Huanghui回复李俊何?:

      ScatterND会往张量的任意位置写数据。 这些写入是不可预测的 。

      2025-07-14
      0
    • 李俊何?回复Huanghui:

      明白了 感谢解答

      2025-07-14
      0
  • DR_KAN
    Lv.4
    2025-07-14
    0
    1
    • 李俊何?回复DR_KAN:

      谢谢大佬,我去看看

      2025-07-14
      0