专栏算法工具链x86仿真

x86仿真

帅先生2026-03-12
23
2

目前想要在云端x86环境调用CUDA,C++做批量数据推理。

模型量化采用的是QAT,已有过程中产生的bc及最终产物hbm模型。目前hbm推理调用x86库,效率达不到要求,同时也看到有hbm_infer这个接口实际推理发生在板端,不太符合要求;bc推理看hb_runtime接口没有显示调用cuda接口。

个人想法是将python调用cuda推理bc封装成库,C++调用,想问一下这种实现是否能达到预期,推理效率是否能很快,同时python调用cuda推理bc的接口应该做哪个。

谢谢。

算法工具链
技术深度解析征程6
评论2
0/1000
  • Huanghui
    Lv.5
    2026-03-12
    0
    0
  • DR_KAN
    Lv.4

    x86用gpu推理量化bc的效率比较低,建议还是就用CPU推

    14小时前
    0
    0