专栏算法工具链hbm板端耗时profiling与优化

hbm板端耗时profiling与优化

已解决

李俊何?2025-07-11

95

0

0

10

如题，我将模型正常编译之后，在板端的耗时测得12ms，使用 profile_path 工具得到如下信息：

总的耗时如下：

目前已知的信息是cpu算子和gpu算子都有较大的latency，我想针对耗时做一些优化，但是目前只有尝试了在compile的时候将opt调整为2，可惜耗时没有明显变化，所以想请教一下，针对板端耗时的优化有什么策略路线或者其他博客资料么~

算法工具链

征程6技术深度解析

评论4

0/1000

李俊何?
Lv.1
好像点进来看不到具体评论
2025-07-11
0
2
- 费小财回复李俊何?:
  你的图片上传有问题，都花了，看看能不能重新上传下
  2025-07-11
  1
  回复
- Huanghui回复李俊何?:
  你重新发布下试试看
  2025-07-11
  1
  回复
李俊何?
Lv.1
sorry 补上两张图，是关于profiling的耗时分析
周末愉快啊有空再讨论下吧~
2025-07-11
0
0
李俊何?
Lv.1
ps: cpu上的算子是scatterND算子导致的，不知道是否能够有什么替换方式
2025-07-11
0
3
- Huanghui回复李俊何?:
  主要原因是scatterND算子是非连续、随机写入的。不符合现代硬件对连续内存访问与并行计算的优化习惯。
  2025-07-14
  1
  回复
- Huanghui回复李俊何?:
  ScatterND会往张量的任意位置写数据。这些写入是不可预测的。
  2025-07-14
  0
  回复
- 李俊何?回复Huanghui:
  明白了感谢解答
  2025-07-14
  0
  回复
DR_KAN
Lv.4
scatternd的优化可以看下这个文章 https://developer.horizon.auto/blog/10164 主要得靠pytorch那边优化下代码
2025-07-14
0
1
- 李俊何?回复DR_KAN:
  谢谢大佬，我去看看
  2025-07-14
  0
  回复

暂无职位信息

0博客

3帖子

3回答