在J3板端部署yolov8n-seg分割模型，模型板端推理（不含前后处理）单张图片耗时较长

已解决

默认478722025-11-04

1. 芯片型号：J3

2. 问题定位：板端部署

3. 问题具体描述：

我使用工具链将自己基于512*512的图像训练的yolov8n-seg分割模型（ 9个类别）进行PTQ转换后，编写部署代码在x86验证后再编译为arm版可上板执行文件，拷贝至板端运行时，单张图片不算前处理与后处理推理耗时180ms左右，未满足预期。且在运行时监测CPU与BPU占用率，CPU大概占用50%（初步判断是前处理与后处理较为冗余），BPU双核都在10%以下。
请问这个推理耗时正常吗，有什么方法能够优化板端推理时延吗？并且推理时BPU占用率很低正常吗？
相关关键输出信息以及图片如下：

1.config参数配置：

2.模型PTQ转换后输出的log（截取了部分）：

3.板端运行时终端输出的信息：推理（输出的计时为部署代码内自己实现的计时函数）：
这里只显示了推理的耗时，后面在部署代码中加入了前后处理耗时测量，前处理200ms左右，后处理1200ms左右

4.部署代码：

算法工具链

征程3