如题,我将模型正常编译之后,在板端的耗时测得12ms,使用 profile_path 工具得到如下信息:
总的耗时如下:
总的耗时如下:
目前已知的信息是cpu算子和gpu算子都有较大的latency,我想针对耗时做一些优化,但是目前只有尝试了在compile的时候将opt调整为2,可惜耗时没有明显变化,所以想请教一下,针对板端耗时的优化有什么策略路线或者其他博客资料么~
目前已知的信息是cpu算子和gpu算子都有较大的latency,我想针对耗时做一些优化,但是目前只有尝试了在compile的时候将opt调整为2,可惜耗时没有明显变化,所以想请教一下,针对板端耗时的优化有什么策略路线或者其他博客资料么~


