这里多线程主要是针对CPU来说的,一个线程的模型推理BPU部分时,另一个线程可以处理CPU算子(比如反量化),这样能提升BPU占用率。如果只用单线程推理模型,那模型在运行CPU算子的时候,BPU就闲置了,无法充分发挥BPU。