1. HistogramObserver的定义与原理
HistogramObserver是horizon_plugin_pytorch中一种基于直方图统计的量化Observer。与MinMaxObserver仅记录最小最大值、MSEObserver在线性搜索中计算MSE不同,HistogramObserver通过构建完整的数值分布直方图来捕获张量的统计特性,并支持多种量化参数计算方法。
MinMaxObserver与MSEObserver解析可参考:https://developer.horizon.auto/blog/13467
1.1 基本原理
HistogramObserver的工作流程分为两个阶段:
阶段一:直方图收集(forward过程)
直方图桶(Histogram Bin):将数值范围划分为若干个等宽的区间,每个区间就是一个"桶"(bin)。落在某个区间内的数值个数就是该桶的计数。例如,数据范围 [-10, 10],设置 bin_num=4:
桶0 [-10, -5) 包含 -8, -6 → 计数 = 2 桶1 [-5, 0) 包含 -3 → 计数 = 1 桶2 [0, 5) 包含 2, 1, 4 → 计数 = 3 桶3 [5, 10] 包含 7, 9 → 计数 = 2桶越多(bin_num越大),分布刻画越精细,内存占用越大。
阶段二:量化参数计算(calculate_qparams过程)
方法 | 描述 |
|---|---|
mse | 最小化量化误差的积分估计(默认) |
kl | 最小化KL散度 |
js | 最小化JS散度 |
cdf_kl | 基于累积分布函数的KL散度 |
cdf_js | 基于累积分布函数的JS散度 |
wasserstein | 最小化Wasserstein距离 |
percentile | 百分位截断 |
1.2 核心实现
1.3 直方图扩展机制
当遇到超出当前边界的数值时,边界会按2的幂次扩展,同时通过分桶合并保持bin数量不变:
这种设计确保了:直方图可以处理任意范围的数值、内存占用保持恒定、多卡校准结果一致性。
1.4 特点分析
优点:
保留完整分布信息,支持多种量化参数计算方法
计算与收集分离,可在校准后灵活切换方法
边界对齐机制确保多卡校准结果一致
缺点:
内存占用较高(bin_num默认2048)
2. 与MinMaxObserver/MSEObserver的区别
2.1 核心差异对比
特性 | MinMaxObserver | MSEObserver | HistogramObserver |
|---|---|---|---|
统计方式 | 仅记录min/max | 在线搜索最优scale | 构建完整直方图 |
内存占用 | 极低 | 中等 | 较高 |
计算时机 | forward时更新 | forward时搜索 | forward收集,qparams时计算 |
分布感知 | 否 | 部分(通过MSE) | 是(完整分布) |
多方法支持 | 否 | 否(仅MSE) | 是(7种方法) |
Per-channel支持 | 是 | 是 | 是 |
2.2 具体区别分析
与MinMaxObserver的区别:
- 信息保留:MinMaxObserver只保留极值信息,丢失了分布密度;HistogramObserver保留完整分布信息。
- 离群值处理:MinMaxObserver对离群值极其敏感;HistogramObserver通过分布感知方法(如percentile、kl)自动处理离群值。
- 校准稳定性:MinMaxObserver的滑动平均可能导致校准结果不稳定;HistogramObserver的直方图累加更加稳定。
与MSEObserver的区别:
- 计算时机:MSEObserver在每次forward时进行完整的搜索;HistogramObserver将收集和计算分离。
- 误差度量:MSEObserver仅支持L2误差;HistogramObserver支持MSE、KL、JS、Wasserstein等多种度量。
- 灵活性:HistogramObserver支持在计算量化参数时更换方法,无需重新校准。
3. reset_dtype与reset_scale用法
3.1 reset_dtype方法
使用场景:
- 混合精度量化:不同层使用不同量化位宽时,动态调整Observer的dtype。
- 量化位宽探索:尝试INT8、INT4等不同位宽,无需重新校准。
3.2 reset_scale类方法
参数说明:
参数 | 说明 |
|---|---|
model | 待处理的模型 |
method | 计算方法:mse/kl/js/cdf_kl/cdf_js/wasserstein/percentile |
method_kwargs | 方法参数(如steps、percentile) |
prefix | 仅处理指定前缀的模块 |
dtype | 仅处理指定dtype的模块 |
使用场景:
- 方法对比实验:使用同一份校准数据,对比不同量化参数计算方法的效果。
- 混合策略量化:不同层使用不同的校准方法。
3.3 reset_scale vs 重新校准
对比项 | reset_scale | 重新校准 |
|---|---|---|
数据需求 | 无需校准数据 | 需要校准数据 |
时间成本 | 极低 | 高 |
适用场景 | 方法对比、参数调优 | 分布变化、数据变更 |
4. 使用场景建议
方法选择建议:
数据分布特征 | 推荐方法 |
|---|---|
正态分布 | mse |
长尾分布 | percentile 或 kl |
多峰分布 | wasserstein |
存在离群值 | percentile(0.9999) |
HistogramObserver在实际应用中,适用于高精度量化需求、复杂分布数据、需要灵活调整量化策略的场景。
建议:校准时收集直方图,通过reset_scale对比不同方法后确定最优策略。



