【J6】MinMaxObserver与MSEObserver介绍

1. Observer的作用

在神经网络量化过程中，Observer（观察者）是连接浮点模型与量化模型的桥梁，负责在量化感知校准/训练（Calib/QAT）过程中收集张量的统计信息，并基于这些统计信息计算出最优的量化参数。

Observer的功能包括：

统计信息收集：在前向传播过程中，Observer会记录每个张量的数值分布特征，如最小值、最大值等。
量化参数计算：基于收集的统计信息，Observer计算出量化所需的两个关键参数：
- Scale（缩放因子）：将浮点数值映射到整数空间的比例系数
- Zero Point（零点）：浮点零值在整数空间中的对应位置
校准流程支撑：在校准阶段，Observer记录典型数据流经模型时的激活值分布，为量化做准备。

在horizon_plugin_pytorch/quantization/observer_v2.py中，从ObserverBase基类可以看到，所有Observer都需要实现forward方法来更新统计信息，并提供calculate_qparams方法来计算量化参数。

MinMaxObserver是最基础、最常用的量化Observer。其核心思想：使用张量的最小值和最大值来确定量化范围，从而计算量化参数。

从源码实现来看，MinMaxObserver的工作流程如下：

优点：

缺点：

MSEObserver策略：通过最小化原始张量与量化后张量之间的均方误差（Mean Square Error）来寻找最优量化参数。

MSEObserver核心思想：在原始min-max范围内，线性搜索一个最优的截断阈值，使得量化误差最小。

MSEObserver在GPU上运行时会进行显存估算和分块计算，避免因同时存储大量中间结果导致OOM：

优点：

缺点：

Per-channel量化：由于per-channel本身对通道间差异敏感，一般不需要MSE的精细调整，weight量化是per-channel的。

MinMaxObserver和MSEObserver在实际应用中，应根据模型特点、精度需求和计算资源进行权衡选择。

建议：校准使用MSEObserver，QAT使用MinMaxObserver。