用J6M,已经把校验数据压缩到100条,PTQ量化过程非常慢。跑一次要16个小时,其中校验过程大概7个多小时,编译8个小时。
正常用示例模型,或者感知模型,都是几分钟结束了。
所以这个有可能是什么原因呢?
模型是轨迹预测模型,里面attention这些比较多,onnx节点数很多有3000多个。但是模型推理是不慢的,gpu上推理0.02s,fast-perf模式量化生成的hbm在板端推理不到5ms。
用J6M,已经把校验数据压缩到100条,PTQ量化过程非常慢。跑一次要16个小时,其中校验过程大概7个多小时,编译8个小时。
正常用示例模型,或者感知模型,都是几分钟结束了。
所以这个有可能是什么原因呢?
模型是轨迹预测模型,里面attention这些比较多,onnx节点数很多有3000多个。但是模型推理是不慢的,gpu上推理0.02s,fast-perf模式量化生成的hbm在板端推理不到5ms。

