专栏算法工具链x86仿真

x86仿真

帅先生2026-03-12
70
4

目前想要在云端x86环境调用CUDA,C++做批量数据推理。

模型量化采用的是QAT,已有过程中产生的bc及最终产物hbm模型。目前hbm推理调用x86库,效率达不到要求,同时也看到有hbm_infer这个接口实际推理发生在板端,不太符合要求;bc推理看hb_runtime接口没有显示调用cuda接口。

个人想法是将python调用cuda推理bc封装成库,C++调用,想问一下这种实现是否能达到预期,推理效率是否能很快,同时python调用cuda推理bc的接口应该做哪个。

谢谢。

算法工具链
技术深度解析征程6
+1
评论4
0/1000
  • HuangHui
    Lv.5
    2026-03-12
    0
    0
  • DR_KAN
    Lv.4

    x86用gpu推理量化bc的效率比较低,建议还是就用CPU推

    2026-03-13
    0
    0
  • 费小财
    Lv.5
    .bc/.hbm 是为 BPU 芯片定制的定点格式,设计初衷是板端部署,非云端 GPU 推理;若业务强依赖 .bc 模型结构(如含特殊算子),可考虑:在 X86 上用多进程 + 多线程 CPU 推理 .bc或评估是否可将模型改写为标准算子,便于导出 ONNX
    2026-03-18
    0
    0
  • 帅先生
    Lv.1
    明白了,感谢zuoyi_org.svg
    2026-03-19
    0
    0