QAT模型加载训练输出为0

已解决

浮浮浮2025-11-14

环境：

oe 3.5.0

问题1：自研模型qat训练相关的问题

QAT 模型加载后推理输出全 0 且效果异常的问题。

描述：

紫色线是qat训练时候的指标，灰色那个是浮点训练时候的指标在load_state_dict时候，它报了一堆“”Missing key(s) in state_dict:“”，然后我设置成了“”qat_model.load_state_dict(checkpoint["model_state_dict"], strict=False)“”，不报错了，但是模型推理结果完全不对，和qat训练时效果完全不同，不论输入为什么值，输出都是0。

请问：是哪里出错了吗？

部分模型加载代码如下：

问题2：oe提供的模型，出现的问题

使用oe包内qcnet 相关工具库，进行qat 训练，训练一段时间后，loss为nan值（直接用的oe包里的qat代码，参数部分只调整了batchsize,从原始的4*2，调整成了32）

问题3：oe提供的模型，出现的问题

使用正常的qat模型转出hbm模型后，使用hbm定点模型进行推理，报错（数据直接使用oe 提供的工具生成的，参数配置没有改动）

算法工具链

征程6

0/600

Vincent
Lv.4
你好，这个qat训练流程用的是OE包里面的示例还是自己写的训练流程？
2025-11-14
0
7
- 浮浮浮回复Vincent:
  自己的训练流程，模型时自研的
  2025-11-14
  0
  回复
- Vincent回复浮浮浮:
  strict这里设置成false没啥用，可能就是因为模型架构某些层跟字典中的key没有对上导致推理为0，看训练指标应该模型精度本身没问题，还是那些地方没有配置好或者是没有正确加载
  2025-11-14
  0
  回复
- Vincent回复浮浮浮:
  打印下这个加载完参数的pt模型的权重，看下是否为空或者0
  2025-11-14
  0
  回复
- 浮浮浮回复Vincent:
  好的，这边会debug一下问题1
  2025-11-14
  0
  回复
- Vincent回复浮浮浮:
  好
  2025-11-14
  0
  回复
- Vincent回复浮浮浮:
  你好，问题一怎么样了
  2025-11-17
  0
  回复
- Vincent回复浮浮浮:
  问题二，将学习路调小一点试一下，我之前不记得在哪个地方似乎看到过当训练损失为None时候，可以尝试调小学习率
  2025-11-24
  0
  回复
HuangHui
Lv.5
您好，由于您长时间未回复，相信您已经解决此问题，欢迎再次提问
2025-11-28
0
0