onnx转hbm报错，Failed to allocate memory

已解决

AnnieLittleYu2025-12-16

onnx转hbm验证的时候可以通过，但是通过量化转hbm的时候就会oom报错

配置如下：O2,

cal_batch_size为1，但是实际转的时候会有提示说usingbatch为8，然后强转为1的点

算法工具链

征程6

0/1000

Huanghui
Lv.5
1. 芯片类型？
2. 工具链版本？
3. 模型分享一下（做排除环境和服务器配置的交叉验证）
初步判断你的你的服务器配置的内存小了，也可以自己换个高配置服务器试试。
2025-12-16
1
6
- AnnieLittleYu回复Huanghui:
  j6m
  2025-12-16
  0
  回复
- AnnieLittleYu回复Huanghui:
  ubuntu_j6_gpu: v3.2.0
  total used free shared buff/cache available Mem: 125Gi 41Gi 38Gi 10Mi 47Gi 83Gi Swap: 8.0Gi 3.9Gi 4.1Gi
  2025-12-16
  0
  回复
- AnnieLittleYu:
  2025-12-16
  0
  回复
- Vincent回复AnnieLittleYu:
  在校准时候，实时监控下内存占用情况吧，#watch -n 1 free -h
  2025-12-18
  0
  回复
- Vincent回复AnnieLittleYu:
  检查下是不是系统单次内存分配有限制 cat /proc/sys/vm/overcommit_memory
  2025-12-18
  0
  回复
- Vincent回复AnnieLittleYu:
  另外看下进程资源有没有限制，ulimit -a，重点看下 max memory size； virtual memory； data seg size 。如果有限制，取消它：
  2025-12-18
  0
  回复
AnnieLittleYu
Lv.1
补充配置 # 模型参数组（无修改）model_parameters:onnx_model: '/open_explorer/MapTR/Wholemodel_v1_0_ep55.onnx'march: 'nash-m'output_model_file_prefix: 'lanesegnet_r50'working_dir: './output'debug_mode: ""# 输入信息参数组（保持四维形状）input_parameters:input_name: "input_img;navigation;ego_feature" input_type_train: "featuremap;featuremap;featuremap"input_layout_train: "NCHW;NCHW;NCHW"input_shape: "1x7x3x544x960;1x39x2;1x5" # input_batch: "1"input_type_rt: "featuremap;featuremap;featuremap"# 校准参数组（核心修正：确保4个映射，格式严格）calibration_parameters:cal_data_dir: '/data/horizon_j6/data/yua4/calidata/input_img/;/data/horizon_j6/data/yua4/calidata/navigation/;/data/horizon_j6/data/yua4/calidata/ego_feature/' # 根目录必须存在cal_data_type: 'float32;float32;float32' cal_data_layout: "NCHW;NCHW;NCHW"# 关键修正：用紧凑格式写4个映射，分号分隔且无多余空格/换行dir_pattern: "input_img;navigation;ego_feature"file_pattern: '*' # 匹配所有npy文件cal_batch_size: 1cal_image_num: 240 # 编译参数组（无修改）compiler_parameters:compile_mode: 'latency'core_num: 1optimize_level: 'O2'max_time_per_fc: 1000jobs: 4
2025-12-16
0
0
AnnieLittleYu
Lv.1
2025-12-16
0
0
AnnieLittleYu
Lv.1
2025-12-16
0
2
- Huanghui回复AnnieLittleYu:
  这个时正常的，校准过程会先尝试用batch8校准，如果模型本身不支持，会退回到batch1校准，无论哪种，都可以完成校准，如果你的问题是这个，那么这个问题可以忽略，不影响使用。
  2025-12-16
  1
  回复
- AnnieLittleYu回复Huanghui:
  现在最大的问题还是oom
  2025-12-16
  0
  回复
AnnieLittleYu
Lv.1
问题已解决，通过扩大swap空间
2025-12-23
0
1
- Huanghui回复AnnieLittleYu:
  OK，跟问题的提示是一直呢，内存不足的原因
  2025-12-26
  0
  回复