专栏算法工具链hbm_perf 生成的网页

hbm_perf 生成的网页

已解决
bopk2025-08-05
77
12

hbm_perf 生成的html报告,中的卷积的ops 和cost time 不成正比是什么原因呢,

算法工具链
征程6
评论1
0/1000
  • Huanghui
    Lv.5

    你好,算子所花费的算例与花费的时间不一定是成正比的,影响因素有很多, 算子的计算复杂度不同 , 并行度和硬件利用率也不同 。实际花费时间当然也不同了

    2025-08-06
    0
    11
    • bopk回复Huanghui:

      这个怎么统计呢,我想估计出卷积运行的大概时间,比如知道卷积的输入shape ,权重shape, 估计出卷积的花费时间

      2025-08-06
      0
    • Huanghui回复bopk:

      暂时没这个功能能直接查看单算子运行时间,你可以自己写一个卷积,依照你的输入shape要求,自己拿到板子上测一下时间

      2025-08-06
      0
    • bopk回复Huanghui:

      那咱们的模拟器怎么得到的模拟时间呢html报告 不是实际板端运行出来的

      2025-08-08
      0
    • Huanghui回复bopk:

      那个时间跟板端的差不多,他里面有计算公式,推理cpu映射出bpu大概耗时。单单的板子上没有直接计算时间的接口,只能计算总耗时。

      2025-08-08
      0
    • Huanghui回复bopk:

      另外就是,计算量跟算子耗时没有绝对的正比关系,影响因素很多。

      2025-08-08
      0
    • Huanghui回复bopk:

      计算量大只是对硬件资源要求高。这个是肯定的

      2025-08-08
      0
    • PhoenixOwner回复bopk:
      模拟器是根据对一个大的卷积进行分块后小卷积计算事件的累加,其中每个小卷积的时间是根据硬件的频率、卷积核大小、卷积类型、输入输出通道数等参数计算出来的。
      从宏观上看,卷积计算的OPS和卷积时间是呈正比的;从微观上看,OPS与时间的关系受各种参数的影响。比如,卷积参数刚好跟BPU硬件TAE的计算结构适配,硬件直接算就完事了,没有额外消耗;反之,相同OPS下,但是卷积参数很诡异,形状也很诡异,编译过程会对其进行分块,那么除了计算之外,还有各种数据重排、数据填充、冗余计算等在里面,即引入了一些冗余计算,那么时间就会增加。 也就是体现在OPS和cost time不成正比。
      2025-08-08
      0
    • bopk回复PhoenixOwner:

      这些 html 网页中信息是怎么得到的,我并没有实际在开发板上运行啊,如果是模拟仿真出来的,这部分怎么模拟呢

      2025-08-13
      0
    • bopk回复Huanghui:

      这个计算公式都包括什么啊 ,或者有啥资料可以参考吗

      2025-08-13
      0
    • bopk回复PhoenixOwner:

      通过计算公式就能模拟出时间吗,很好奇这个公式都包括啥,有啥资料可以参考吗

      2025-08-13
      0
    • PhoenixOwner回复bopk:

      抱歉,我也不知道,没有公式可以参考,也没有资料参考。

      2025-08-13
      0