专栏算法工具链onnx转hbm报错,Failed to allocate memory

onnx转hbm报错,Failed to allocate memory

已解决
AnnieLittleYu2025-12-16
57
14
onnx转hbm验证的时候可以通过,但是通过量化转hbm的时候就会oom报错 配置如下:O2,

cal_batch_size为1,但是实际转的时候会有提示说usingbatch为8,然后强转为1的点

 

算法工具链
征程6
评论5
0/1000
  • Huanghui
    Lv.5

    1. 芯片类型?

    2. 工具链版本?

    3. 模型分享一下(做排除环境和服务器配置的交叉验证)

    初步判断你的你的服务器配置的内存小了,也可以自己换个高配置服务器试试。

    2025-12-16
    1
    6
    • AnnieLittleYu回复Huanghui:

      j6m

      2025-12-16
      0
    • AnnieLittleYu回复Huanghui:
      ubuntu_j6_gpu: v3.2.0
      total used free shared buff/cache available Mem: 125Gi 41Gi 38Gi 10Mi 47Gi 83Gi Swap: 8.0Gi 3.9Gi 4.1Gi
      2025-12-16
      0
    • AnnieLittleYu:
      2025-12-16
      0
    • Vincent回复AnnieLittleYu:

      在校准时候,实时监控下内存占用情况吧,#watch -n 1 free -h

      2025-12-18
      0
    • Vincent回复AnnieLittleYu:

      检查下是不是系统单次内存分配有限制 cat /proc/sys/vm/overcommit_memory

      2025-12-18
      0
    • Vincent回复AnnieLittleYu:
      另外看下进程资源有没有限制,ulimit -a,重点看下 max memory size; virtual memory; data seg size 。 如果有限制,取消它:
      2025-12-18
      0
  • AnnieLittleYu
    Lv.1

    补充配置 # 模型参数组(无修改)model_parameters:onnx_model: '/open_explorer/MapTR/Wholemodel_v1_0_ep55.onnx'march: 'nash-m'output_model_file_prefix: 'lanesegnet_r50'working_dir: './output'debug_mode: ""# 输入信息参数组(保持四维形状)input_parameters:input_name: "input_img;navigation;ego_feature" input_type_train: "featuremap;featuremap;featuremap"input_layout_train: "NCHW;NCHW;NCHW"input_shape: "1x7x3x544x960;1x39x2;1x5" # input_batch: "1"input_type_rt: "featuremap;featuremap;featuremap"# 校准参数组(核心修正:确保4个映射,格式严格)calibration_parameters:cal_data_dir: '/data/horizon_j6/data/yua4/calidata/input_img/;/data/horizon_j6/data/yua4/calidata/navigation/;/data/horizon_j6/data/yua4/calidata/ego_feature/' # 根目录必须存在cal_data_type: 'float32;float32;float32' cal_data_layout: "NCHW;NCHW;NCHW"# 关键修正:用紧凑格式写4个映射,分号分隔且无多余空格/换行dir_pattern: "input_img;navigation;ego_feature"file_pattern: '*' # 匹配所有npy文件cal_batch_size: 1cal_image_num: 240 # 编译参数组(无修改)compiler_parameters:compile_mode: 'latency'core_num: 1optimize_level: 'O2'max_time_per_fc: 1000jobs: 4

    2025-12-16
    0
    0
  • AnnieLittleYu
    Lv.1
    2025-12-16
    0
    0
  • AnnieLittleYu
    Lv.1
    2025-12-16
    0
    2
    • Huanghui回复AnnieLittleYu:

      这个时正常的,校准过程会先尝试用batch8校准,如果模型本身不支持,会退回到batch1校准,无论哪种,都可以完成校准,如果你的问题是这个,那么这个问题可以忽略,不影响使用。

      2025-12-16
      1
    • AnnieLittleYu回复Huanghui:
      现在最大的问题还是oombeishang_org.svg
      2025-12-16
      0
  • AnnieLittleYu
    Lv.1

    问题已解决,通过扩大swap空间

    2025-12-23
    0
    1
    • Huanghui回复AnnieLittleYu:

      OK,跟问题的提示是一直呢,内存不足的原因

      2025-12-26
      0