目前想要在云端x86环境调用CUDA,C++做批量数据推理。
模型量化采用的是QAT,已有过程中产生的bc及最终产物hbm模型。目前hbm推理调用x86库,效率达不到要求,同时也看到有hbm_infer这个接口实际推理发生在板端,不太符合要求;bc推理看hb_runtime接口没有显示调用cuda接口。
个人想法是将python调用cuda推理bc封装成库,C++调用,想问一下这种实现是否能达到预期,推理效率是否能很快,同时python调用cuda推理bc的接口应该做哪个。
谢谢。
目前想要在云端x86环境调用CUDA,C++做批量数据推理。
模型量化采用的是QAT,已有过程中产生的bc及最终产物hbm模型。目前hbm推理调用x86库,效率达不到要求,同时也看到有hbm_infer这个接口实际推理发生在板端,不太符合要求;bc推理看hb_runtime接口没有显示调用cuda接口。
个人想法是将python调用cuda推理bc封装成库,C++调用,想问一下这种实现是否能达到预期,推理效率是否能很快,同时python调用cuda推理bc的接口应该做哪个。
谢谢。


