专栏算法工具链hbm模型推理后输出出现nan值

hbm模型推理后输出出现nan值

已解决
2025-05-23
346
30
  1. j6-E
    参数设置为"all_node_type": "int8"和"all_node_type": "int16"
    板端推理的输出都会有nan值
    量化的终端打印的cos值是正常的
    附上了hb_compile.log

  2. 进行精度debug后,把部分敏感算子调整为int16,板端推理输出依然有nan值,这个应该要怎么调整量化的策略呢,是板端推理库有差异么

    "node_config": { "MaxPool_4": {"qtype": "int16"}, "Conv_196": {"qtype": "int16"}, "Conv_219": {"qtype": "int16"}, "Conv_204": {"qtype": "int16"}, "Conv_206": {"qtype": "int16"} }

附件:
算法工具链
征程6
评论2
0/1000
  • Huanghui
    Lv.5

    你好,问题收到,复现模型和工程可以分享吗,另外有两个问题:

    1.板端推理的输出有nan值,这个你是如何观察到的?

    2.预期结果是什么样的,你在HOST端也做过同样的推理吗?

    2025-05-23
    0
    11
    • 回复Huanghui:

      可以给我个邮箱吗

      1.通过输出在板端打印和保存为txt文件的形式看到的
      2.预期结果,模型和输入可以发送到您的邮箱。只提供模型输入和模型可以快速验证么
      2025-05-23
      0
    • Huanghui回复:
      huanghui@realthon.com 执法编译的结果意义不大,把原始ONNX、校准集和yaml也提供一下吧。另外看了一下你的编译日志,occ模型比较大,用PTQ量化下来结果很大可能不好,可以尝试在python端推理一下原始onnx模型和quantized.bc看看。
      2025-05-23
      0
    • 回复Huanghui:

      邮件已经发送,感谢支持

      2025-05-26
      0
    • 回复Huanghui:

      你好,可以复现nan值的情况么,这个要怎么解决呢

      2025-05-28
      0
    • 回复Huanghui:

      我host端的X86运行结果和板端一样,也是很多nan值

      2025-05-29
      0
    • Huanghui回复:

      你好,邮件附件太大了!是否可以通过百度云盘的方式分享呢!

      2025-05-29
      0
    • 回复Huanghui:

      链接: https://pan.baidu.com/s/1goD334RbbGMuD6ygsPYHtA?pwd=5621 提取码: 5621

      2025-05-30
      0
    • 回复Huanghui:

      百度网盘已经上传了,麻烦了

      2025-05-30
      0
    • 回复Huanghui:

      hi,今天可以给一个初步的结论么

      2025-05-30
      0
    • 回复Huanghui:

      你好,这个可以复现nan值的请教么

      2025-06-06
      0
    • 回复Huanghui:

      这个验证了么,我打印了中间的dump文件,而且把模型进行了截断,可能是head出现了nan值,这个部分要怎么调整才能消除nan值

      2025-06-18
      0
  • DR_KAN
    Lv.4

    你好,可以利用hb onnxruntime手动写个推理代码,比较下浮点输出和量化bc输出的数值差异,看看具体情况怎么样。HBRuntime推理库的介绍再PTQ的手册中。

    2025-05-26
    0
    17
    • 回复DR_KAN:

      对比了quantized_model.bc和optimized_float_model,的前几组输出的cos 值,差异比较大。

      bc模型是和板端输出比较接近么

      2025-05-26
      0
    • DR_KAN回复:

      bc模型的输出基本可以理解成就是板端的输出

      2025-05-26
      0
    • DR_KAN回复:

      确实精度下降比较多

      2025-05-26
      0
    • 回复DR_KAN:

      bc 模型输出是没有nan值的,但是板端依然有nan值,这个要怎么进一步解决呢

      2025-05-27
      0
    • 回复DR_KAN:

      这个是int16量化的,精度可以,但是板端有nan值

      2025-05-27
      0
    • 回复DR_KAN:

      你好,可以提供一下进一步debug的思路么,目前来看int16进行量化的bc模型和float模型的精度是比较一致的,但是板端推理hbm模型会出现nan值

      2025-05-28
      0
    • DR_KAN回复:

      我觉得可能是3.0.31的工具链版本存在精度BUG导致的,你这边方便拿到比较新的工具链环境重新编一下再试试么

      2025-05-29
      0
    • 回复DR_KAN:
      这个3.0.31还不算新么kuxiao_org.svg,最新的是什么版本
      2025-05-29
      0
    • 回复DR_KAN:

      我可以发模型和yaml 文件和测试集,您这边这可以帮我快速验证一下么

      2025-05-29
      0
    • DR_KAN回复:

      等下面huanghui的测试结果吧

      2025-05-29
      0
    • 回复DR_KAN:

      你好,可以麻烦给个预期么,我可以去完成一下其他工作

      2025-05-29
      0
    • 回复DR_KAN:

      我host端的X86运行结果和板端一样,也是很多nan值

      2025-05-29
      0
    • Huanghui回复:

      稍等哈,我验证一下,你的附件有点大,正在下载,下载后验证一下看看

      2025-05-29
      0
    • 回复DR_KAN:

      我这个问题还有人管么,我打印了中间的dump文件,而且把模型进行了截断,可能是head出现了nan值,这个部分要怎么调整才能消除nan值

      2025-06-18
      0
    • DR_KAN回复:

      听说新版本工具链即将对外发布了,建议再等一下,新版本应该修复了很多BUG并且合入了很多精度优化trick,应该会有帮助

      2025-06-18
      0
    • 回复DR_KAN:
      2025-06-19
      0
    • 回复DR_KAN:

      问题解决了,感谢

      2025-07-11
      1