专栏算法工具链关于量化算子以及反量化如何放到CPU上运行

关于量化算子以及反量化如何放到CPU上运行

已解决
红鲤鱼绿鲤鱼与驴2025-09-01
60
9

 

1.芯片类型: 地平线J3芯片   pliot

 

2.OE包版本为 1.16.2c

3.遇到问题: 在转换模型的时候,所有的算子都在BPU上面情况下,加上remove_op_type:"Quantize;Dequantize"跟不加这句话两种情况下的html显示的bpu显示的推理时间都是一样的,是因为html中的推理时间以及fps本身就不包含量化与反量化的时间吗,我应该如何测试cpu中手动实现与自动实现的时间对比,另外我的输入量化scale是我自己决定吗,输出的每个通道scale已经获取,尾部的反量化是从int16->float32 还是 int8->float32呢,麻烦大佬解答一下吧,谢谢!!

算法工具链
征程3技术深度解析
评论3
0/1000
  • Huanghui
    Lv.5

    你好,j3上量化与反量化算子如果不指定的话,就是跑在cpu上的。BPU只能跑整型的,涉及到浮点的都是跑在cpu上的。

    2025-09-02
    0
    6
    • 红鲤鱼绿鲤鱼与驴回复Huanghui:

      您好,如果没有自己实现量化与反量化,量化与反量化算子跑在cpu这一块时间是如何计算ne,看博客都说很耗时,也不知道具体耗费了多少时间

      2025-09-02
      0
    • 红鲤鱼绿鲤鱼与驴回复Huanghui:

      尾部的反量化是从int16->float32 还是 int8->float32呢

      2025-09-02
      0
    • 遥看瀑布挂前川回复红鲤鱼绿鲤鱼与驴:
      使用hrt命令:hrt_model_exec infer --frame_count 2000 --thread_num=1 --core_id 0 --profiler_path ./
      目录下会生成profiler.log,会有cpu段的耗时
      2025-09-02
      0
    • 遥看瀑布挂前川回复红鲤鱼绿鲤鱼与驴:

      看你模型是int8还是int16,模型最后的算子(dequant前一个算子的输出类型)是什么输出

      2025-09-02
      0
    • 红鲤鱼绿鲤鱼与驴回复遥看瀑布挂前川:

      佬儿,请问 --thread_num 的设置是指用多线程进行推理吗

      2025-09-04
      0
    • 红鲤鱼绿鲤鱼与驴:

      好的,谢谢解答

      2025-09-04
      0
  • Huanghui
    Lv.5

    scale值是根据你传入的校准集数据统计出来的,

    2025-09-02
    0
    0
  • DR_KAN
    Lv.4

    html只预估BPU部分的推理时间。CPU得上板实测。

    2025-09-03
    0
    0