J6M QAT 是否支持 activation per-channel quantization

已解决

默认030722026-06-01

各位好，想确认一下 J6 / OpenExplorer QAT 链路中 activation per-channel quantization 的支持边界。

目前基于 Horizon 文档和源码看到的信息如下：

1. get_default_qconfig() 默认会把 weight 设置为 per-channel symmetric：

weight_qkwargs["qscheme"] = torch.per_channel_symmetric

weight_qkwargs["ch_axis"] = 0

2. activation 默认看起来是 per-tensor symmetric，即：

qscheme = torch.per_tensor_symmetric

ch_axis = -1

3. 官方文档中有一句说明：

Only weight supports per-channel quantization.

4. 但从源码看，QTensor / FakeQuantize / scale_quanti 似乎具备 per-channel 表达能力。例如可以构造：

FakeQuantize.with_args(

observer=MinMaxObserver,

dtype=qint8,

qscheme=torch.per_channel_symmetric,

ch_axis=1,

)

源码里也能看到类似 per_channel_8bit_fake_quant / per_channel_qat_8bit_qconfig 的定义。

所以想确认几个问题：

1. 在 J6 当前 OpenExplorer QAT + export + convert + compile 全链路中，activation per-channel quantization 是否受支持？

2. 如果支持，是否仅支持特定 op / 特定 tensor layout，例如 NCHW feature 的 ch_axis=1？

3. 如果 PyTorch QAT 阶段可以构造 activation per-channel fake quant，那么 export 到 HBIR、convert 到 quantized.bc、compile 到 hbm 是否都能保持一致？

4. 文档中 “Only weight supports per-channel quantization” 是否表示：

- activation per-channel 完全不支持；

- 还是只是不作为默认推荐配置；

- 或者仅部分算子/部分 backend 不支持？

5. 如果 activation per-channel 不支持，针对 x/y/z 坐标类 feature 共用 per-tensor scale 导致精度损失的场景，推荐方案是否是：

- 拆分 x/y/z 到不同 quant node；

- 对敏感 activation 使用 qint16；

- 使用 FixedScaleObserver；

- 或 high precision output？

环境版本大致为：

OpenExplorer / horizon_plugin_pytorch: 3.0.31

目标平台: J6

算法工具链

技术深度解析征程6

0/600

费小财
Lv.5
1.在 J6 (J6E/M/H/P) 的量产部署链路中，官方明确不支持 Activation Per-Channel 量化。
2全链路一致性确认
Export (PyTorch -> ONNX/HBIR): PyTorch导出时可能保留 Per-Channel属性。Convert (HBIR -> Quantized BC): hb_mapper convert 阶段会进行算子映射和量化参数固化。在此阶段，非标准的量化配置（如 Act Per-Channel）会被修正或报错。
Compile (BC -> HBM): BPU编译器根据硬件指令集生成代码。由于硬件不支持 Act Per-Channel，最终生成的 .hbm 一定是 Per-Tensor Activation。
因此： PyTorch QAT阶段构造的 Activation Per-Channel Fake Quant 不能保证与板端一致。严禁在生产模型中使用 Activation Per-Channel配置进行 QAT训练，否则会产生严重的仿真与实机偏差。
2026-06-12
1
0
费小财
Lv.5
检查 QConfig：确保所有 Activation的 qscheme均为 torch.per_tensor_symmetric (或 asymmetric，视具体配置而定)，切勿使用 per_channel_symmetric/asymmetric for activation。
验证仿真一致性：在 PC端评估时，强制使用与板端一致的 Per-Tensor Activation配置进行仿真，以确保“所见即所得”。
针对性调优坐标头:
Step 1:将坐标回归分支的最后几个算子设为 FP16。测试板端精度。
Step 2:如果性能受限必须整型，改为 INT16。
Step 3:如果必须 INT8，检查该分支激活值的直方图，尝试使用 Fixed Scale或增加校准数据中极端样本的比例。
2026-06-12
1
0
D-bot
Lv.3
您好，您的问题长时间为更新，因此帖子关闭，若有其他问题，还请发布新的帖子哦
2026-07-02
0
0
默认03072
Lv.1
好的！
2026-07-06
0
0