专栏算法工具链QAT模型加载训练输出为0

QAT模型加载训练输出为0

已解决
浮浮浮2025-11-14
42
9

环境:

        oe 3.5.0

问题1:自研模型qat训练相关的问题

         QAT 模型加载后推理输出全 0 且效果异常的问题。

描述:

        紫色线是qat训练时候的指标,灰色那个是浮点训练时候的指标在load_state_dict时候,它报了一堆“”Missing key(s) in state_dict:“”,然后我设置成了“”qat_model.load_state_dict(checkpoint["model_state_dict"], strict=False)“”,不报错了,但是模型推理结果完全不对,和qat训练时效果完全不同,不论输入为什么值,输出都是0。

        请问:是哪里出错了吗?

部分模型加载代码如下:

 

问题2:oe提供的模型,出现的问题

使用oe包内qcnet 相关工具库,进行qat 训练,训练一段时间后,loss为nan值(直接用的oe包里的qat代码,参数部分只调整了batchsize,从原始的4*2,调整成了32)

问题3:oe提供的模型,出现的问题

使用正常的qat模型转出hbm模型后,使用hbm定点模型进行推理,报错(数据直接使用oe 提供的工具生成的,参数配置没有改动)

算法工具链
征程6
评论2
0/1000
  • Vincent
    Lv.4

    你好,这个qat训练流程用的是OE包里面的示例还是自己写的训练流程?

    2025-11-14
    0
    7
    • 浮浮浮回复Vincent:

      自己的训练流程,模型时自研的

      2025-11-14
      0
    • Vincent回复浮浮浮:

      strict这里设置成false没啥用,可能就是因为模型架构某些层跟字典中的key没有对上导致推理为0,看训练指标应该模型精度本身没问题,还是那些地方没有配置好或者是没有正确加载

      2025-11-14
      0
    • Vincent回复浮浮浮:

      打印下这个加载完参数的pt模型的权重,看下是否为空或者0

      2025-11-14
      0
    • 浮浮浮回复Vincent:

      好的,这边会debug一下问题1

      2025-11-14
      0
    • Vincent回复浮浮浮:

      2025-11-14
      0
    • Vincent回复浮浮浮:

      你好 ,问题一怎么样了

      2025-11-17
      0
    • Vincent回复浮浮浮:

      问题二,将学习路调小一点试一下,我之前不记得在哪个地方似乎看到过当训练损失为None时候,可以尝试调小学习率

      2025-11-24
      0
  • Huanghui
    Lv.5

    您好,由于您长时间未回复,相信您已经解决此问题,欢迎再次提问

    2025-11-28
    0
    0