求助 J6 PTQ量化过程极慢

已解决

长城上贴瓷砖2024-12-26

用J6M，已经把校验数据压缩到100条，PTQ量化过程非常慢。跑一次要16个小时，其中校验过程大概7个多小时，编译8个小时。

正常用示例模型，或者感知模型，都是几分钟结束了。

所以这个有可能是什么原因呢？

模型是轨迹预测模型，里面attention这些比较多，onnx节点数很多有3000多个。但是模型推理是不慢的，gpu上推理0.02s，fast-perf模式量化生成的hbm在板端推理不到5ms。

算法工具链

征程6

0/600

HuangHui
Lv.5
1. 校准过程和推理过程是不一样的，推理只是前项计算，校准要先尝试不同的策略过滤和统计收集数据，收集完了还要有不同策略计算scale这些。另外除了这个模型，模型也要压缩优化这些。
2. 编译过程，其实也是类似，不过编译过程是一个动态规划的过程，需要大量的遍历动作，随模型规模的增加，编译速度影响很大，至少不是线性的。
3. 不管如何，校准过程都和服务器的CPU,GPU,MEG有关，如果CPU/GPU的速度足够快，这个过程就能缩短。
2024-12-26
0
8
- 长城上贴瓷砖回复HuangHui:
  那有什么办法能加快吗？gpu我看占用显存很少，我同时跑了2个量化进程，才占了2个多G。4个cpu，利用率才40%。我用更多的gpu和cpu看起来也没有用呀。
  2024-12-26
  0
  回复
- 长城上贴瓷砖回复HuangHui:
  另外这个转换过程太慢，和跑出来的模型板端性能差精度差有什么关联吗？
  2024-12-26
  0
  回复
- HuangHui回复长城上贴瓷砖:
  精度差是参数导致的，转换过程也是会影响参数，转换过程肯定是会影响精度的，这个是确定的，但是转换速度跟精度之间没有比如慢就精度好快就精度不好这种关系的。
  2024-12-26
  0
  回复
- 长城上贴瓷砖回复HuangHui:
  那转换过程有办法加速吗？
  2024-12-26
  0
  回复
- HuangHui回复长城上贴瓷砖:
  我可以去反馈一下给产品侧，但是从常理上来说，如果能提速肯定就已经提了，目前应该是do best了，慢就只能等，不止是你，我们也是一样，编译慢就是等。
  2024-12-26
  0
  回复
- 长城上贴瓷砖回复HuangHui:
  2024-12-26
  0
  回复
- 长城上贴瓷砖回复HuangHui:
  那校准呢，校准可以调batch size吗？显存用的好少啊
  2024-12-26
  0
  回复
- HuangHui回复长城上贴瓷砖:
  从工具链校准逻辑的代码看，模型的校准过程满足下列条件的情况下工具链尝试自动使用batchsize（8）的：
  1.被校准模型各输入的 batchsize 都是1.
  2. 模型中不存在PyOP的算子，也就是自定义算子。
  3. 系统中存在cudaProvider可以使用。
  2025-01-09
  0
  回复