专栏算法工具链在J3板端部署yolov8n-seg分割模型,模型板端推理(不含前后处理)单张图片耗时较长

在J3板端部署yolov8n-seg分割模型,模型板端推理(不含前后处理)单张图片耗时较长

已解决
默认478722025-11-04
46
4

1. 芯片型号:J3

2. 问题定位:板端部署

3. 问题具体描述:

我使用工具链将自己基于512*512的图像训练的yolov8n-seg分割模型( 9个类别 )进行PTQ转换后,编写部署代码在x86验证后再编译为arm版可上板执行文件,拷贝至板端运行时,单张图片不算前处理与后处理推理耗时180ms左右,未满足预期。且在运行时监测CPU与BPU占用率,CPU大概占用50%(初步判断是前处理与后处理较为冗余),BPU双核都在10%以下。
请问这个推理耗时正常吗,有什么方法能够优化板端推理时延吗?并且推理时BPU占用率很低正常吗?
相关关键输出信息以及图片如下:

1.config参数配置:

2.模型PTQ转换后输出的log(截取了部分):

3.板端运行时终端输出的信息:推理(输出的计时为部署代码内自己实现的计时函数):
这里只显示了推理的耗时,后面在部署代码中加入了前后处理耗时测量,前处理200ms左右,后处理1200ms左右

4.部署代码:

 

 

 

 

 

算法工具链
征程3
评论2
0/1000
  • Vincent
    Lv.4

    你好,有测试过模型在其他板子上如J5,J6上的推理耗时吗?是否也大概是这个推理耗时?现在模型仅在J3上继续宁测试,没有对比其他的板子,不能确定确实是这个推理耗时还是说哪里没有配置或者优化好

    2025-11-05
    0
    1
    • 默认47872回复Vincent:
      还没有在其他板子上试过alongdog_org.svg
      2025-11-05
      0
  • DR_KAN
    Lv.4

    用hrt_model_exec试下单线程和八线程perf,看看性能情况呢

    2025-11-05
    0
    1
    • 默认47872回复DR_KAN:

      八线程fps来到了20左右,bpu双核占用率都在30%左右

      2025-11-05
      0