用户您好,请详细描述您所遇到的问题,这会帮助我们快速定位问题~1.芯片型号:J52.天工开物开发包OpenExplorer版本:J5_OE_1.1.403.问题定位:板端部署等4.问题具体描述:PTQ模型导出yaml配置中,若设置了input_batch: 4, 板端hrt_model_exec perf 耗时36ms; 若不设置batch默认为1,板端耗时9.26ms。差不多就是四倍耗时,batch维度没有并行吗?
多线程的latency比单线程高是正常的,因为线程之间有调度开销,在多线程下主要关注FPS,FPS肯定是有提升的。在评估latency的时候,只看单线程。模型输入为704×960,已经是一个输入较大的模型了,因此多batch下性能提升不明显也是正常的。
还是这个模型,batch为4,当我把模型结尾的三个算子强制运行在BPU上,开发机hb_perf 工具统计的耗时为什么减少而不是增多?我理解hb_perf统计BPU耗时,现在BPU上执行多三个Node,耗时要增多啊。
hb_perf只是一个参考,实际还是要看上板实测的数据哈,如果确实很在意,可以在编译的时候将编译参数组的debug设置为true,那么hb_perf之后就可以看到每一个BPU算子的耗时了(不过debug设置true之后整体耗时会增加)
感谢您使用地平线芯片算法工具链,最近我们在收集大家的满意度反馈,欢迎您填写问卷,详细情况可见:https://developer.horizon.ai/forumDetail/146177053698464782