另外还有一个疑问, 从主循环看, 分配/释放输入输出内存的动作为什么放在了主循环中? 这个不因该是在进行主循环批处理推理过程外一次性分配好的吗? 输入输出维度固定,主循环内只需要填充输入数据和推理得到输出数据就可以了吗? 我看到现在的情况是每次推理前先分配空间然后填充输入,推理完释放输入输出,然后进行下一个循环,这样的话开销是不是更大?