1. 芯片型号:J3
2. 问题定位:板端部署
3. 问题具体描述:
我使用工具链将自己基于512*512的图像训练的yolov8n-seg分割模型( 9个类别 )进行PTQ转换后,编写部署代码在x86验证后再编译为arm版可上板执行文件,拷贝至板端运行时,单张图片不算前处理与后处理推理耗时180ms左右,未满足预期。且在运行时监测CPU与BPU占用率,CPU大概占用50%(初步判断是前处理与后处理较为冗余),BPU双核都在10%以下。
请问这个推理耗时正常吗,有什么方法能够优化板端推理时延吗?并且推理时BPU占用率很低正常吗?
相关关键输出信息以及图片如下:
请问这个推理耗时正常吗,有什么方法能够优化板端推理时延吗?并且推理时BPU占用率很低正常吗?
相关关键输出信息以及图片如下:
1.config参数配置:

2.模型PTQ转换后输出的log(截取了部分):



3.板端运行时终端输出的信息:推理(输出的计时为部署代码内自己实现的计时函数):
这里只显示了推理的耗时,后面在部署代码中加入了前后处理耗时测量,前处理200ms左右,后处理1200ms左右
这里只显示了推理的耗时,后面在部署代码中加入了前后处理耗时测量,前处理200ms左右,后处理1200ms左右


4.部署代码:


