目前把OpenPose的网络转换成定点模型上板运行,但运行时间过长,优化程度不高。
同样一张图片的推理,在CPU上运行大概1.5秒,在板上运行需要750ms:

而checklog中几乎所有操作都被分配给了BPU:


模型确实比较深,计算量比较大,但CPU和上板运行仅缩小一倍是否也是有问题呢?原论文中用普通GPU就能达到50ms左右的效果,请问如何排查和改进呢?
目前把OpenPose的网络转换成定点模型上板运行,但运行时间过长,优化程度不高。
同样一张图片的推理,在CPU上运行大概1.5秒,在板上运行需要750ms:

而checklog中几乎所有操作都被分配给了BPU:


模型确实比较深,计算量比较大,但CPU和上板运行仅缩小一倍是否也是有问题呢?原论文中用普通GPU就能达到50ms左右的效果,请问如何排查和改进呢?
