专栏算法工具链x86仿真

x86仿真

帅先生2026-03-12

70

0

0

4

目前想要在云端x86环境调用CUDA，C++做批量数据推理。

模型量化采用的是QAT，已有过程中产生的bc及最终产物hbm模型。目前hbm推理调用x86库，效率达不到要求，同时也看到有hbm_infer这个接口实际推理发生在板端，不太符合要求；bc推理看hb_runtime接口没有显示调用cuda接口。

个人想法是将python调用cuda推理bc封装成库，C++调用，想问一下这种实现是否能达到预期，推理效率是否能很快，同时python调用cuda推理bc的接口应该做哪个。

谢谢。

算法工具链

技术深度解析征程6

+1

评论4

0/1000

HuangHui
Lv.5
你好，hbm是编译后的结果，指令集在x86上用的是纯CPU仿真，所以效率比较差，但是quantized.bc与hbm在精度上是等价的，你可以通过测试quantized.bc来验证hbm，而quantized.bc的推理过程在X86下是可以进行推理加速的，详细过程请参考：工具链链使用：hbir仿真加速使用与测试 - 地平线开发者社区
2026-03-12
0
0
DR_KAN
Lv.4
x86用gpu推理量化bc的效率比较低，建议还是就用CPU推
2026-03-13
0
0
费小财
Lv.5
.bc/.hbm 是为 BPU 芯片定制的定点格式，设计初衷是板端部署，非云端 GPU 推理；若业务强依赖 .bc 模型结构（如含特殊算子），可考虑：在 X86 上用多进程 + 多线程 CPU 推理 .bc或评估是否可将模型改写为标准算子，便于导出 ONNX
2026-03-18
0
0
帅先生
Lv.1
明白了，感谢
2026-03-19
0
0

暂无职位信息

0博客

1帖子

1回答