衡量模型轻量性的指标

1. 引言

在讨论神经网络模型轻量化时，人们常常会直接使用“轻”“小”“适合部署”这类描述性表述。然而，这类判断如果缺乏明确的衡量标准，就容易停留在经验层面，难以形成统一、可比较的分析框架。对于同一个模型，有的人可能认为它已经足够轻量，有的人则可能认为它依然偏重，根本原因就在于“轻量”本身不是一个抽象的标签，而是一个需要通过具体指标加以刻画的技术概念。

从模型层面来看，一个模型是否轻量，核心取决于两个方面：一是它在存储上的负担有多大，二是它在计算上的负担有多重。前者决定模型本身有多大，需要占用多少存储资源；后者决定模型完成一次前向推理需要多少计算，以及这种计算最终表现为怎样的实际耗时。也就是说，轻量性并不是单纯等同于“参数少”，也不只是“跑得快”，而是模型在存储复杂度和计算复杂度两个维度上的综合体现。

需要说明的是，本文只从模型本身出发讨论轻量性的衡量问题，重点分析参数量、模型大小、FLOPs 和推理时延这几个常见指标。至于部署过程中的系统设计、硬件调度、并行优化、数据流水线以及算子实现细节等内容，本文暂不展开。

2. 模型轻量性的衡量框架

模型轻量性的判断，首先需要一个明确的衡量框架。只有先回答“应该从哪些维度去看”，后续对各项指标的分析才有统一基础。从模型本身出发，轻量性可以归结为两类复杂度：存储复杂度和计算复杂度。

存储复杂度关注的是模型本身的静态规模，回答的是“模型占多大”这一问题。它主要体现在两个方面：一是模型包含多少参数，二是这些参数最终以何种形式被保存，形成多大的模型文件。前者通常用参数量表示，后者通常用模型大小表示。二者虽然密切相关，但并不完全等价。参数量反映的是模型结构层面的规模，模型大小反映的是模型在实际存储层面的空间占用。

计算复杂度关注的是模型执行一次前向推理时所需的计算负担，回答的是“模型算多重”这一问题。它同样可以从两个层面理解：一是理论计算量，即模型从数学运算角度需要完成多少计算，通常用 FLOPs 表示；二是实际推理耗时，即模型真正执行一次推理需要多久，通常用推理时延表示。前者偏理论分析，后者偏实际表现，两者结合起来，才能较完整地刻画模型的计算复杂度。

按照这样的划分，模型轻量性的衡量可以形成一个清晰的四指标框架：参数量、模型大小、FLOPs 和推理时延。参数量和模型大小刻画模型在存储上的轻重，FLOPs 和推理时延刻画模型在计算上的轻重。这个框架虽然简洁，但已经能够覆盖模型层面关于“轻量”最核心的判断依据。

需要强调的是，这四个指标之间并不是彼此替代的关系，而是各自从不同角度描述模型的复杂度特征。一个模型参数量小，不代表模型文件一定小；模型文件小，也不代表理论计算量一定低；理论计算量低，也不代表实际推理时延一定短。因此，建立衡量框架的意义，不仅在于列出指标，更在于明确这些指标所反映的是模型轻量性的不同侧面。

3. 存储复杂度

存储复杂度刻画的是模型在静态层面上的“大小”。对于一个神经网络模型而言，无论它采用何种结构设计，最终都需要以参数的形式被表示、保存和加载。因此，从存储角度衡量模型是否轻量，首先要关注它到底包含多少参数，其次要关注这些参数以何种精度进行存储，并最终占据多大的文件空间。

存储复杂度所回答的问题并不涉及模型在推理时的动态执行过程，而是关注模型本身的静态资源占用。也正因为如此，存储复杂度通常是判断模型轻量性的第一层依据。一个模型如果在参数规模和文件体积上都十分庞大，那么无论后续如何讨论它的计算开销，都很难被视为真正意义上的轻量模型。

3.1 参数量

参数量是衡量模型规模最直观、最基础的指标之一。所谓参数量，是指模型中所有可学习参数的总数，包括卷积核权重、全连接层权重、偏置项以及其他可训练模块中的参数。参数量本质上反映了模型结构的静态容量，也反映了模型在表达能力上的一个基本上限。

一般来说，参数量越大，说明模型能够学习和存储的表示越丰富，但同时也意味着模型的存储负担越重。对于同一类任务而言，参数量较小的模型通常更容易被认为是“轻”的模型，因为它在静态资源占用上更为紧凑。参数量常用 K、M、B 等单位表示，分别对应千、百万和十亿级别的参数规模。

参数量之所以重要，在于它直接刻画了模型的结构规模。无论模型最终保存为哪种格式，参数量都是其最底层的组成基础。对于卷积神经网络而言，卷积层和全连接层通常是参数量的主要来源；对于 Transformer 类模型而言，注意力模块和前馈网络则往往占据大量参数。不同类型模型的参数分布方式虽然不同，但参数总数始终是衡量其静态复杂度的核心依据。

不过，参数量并不能完整代表模型在存储层面的全部负担。参数量相同的两个模型，如果参数的数据类型不同，它们的实际文件大小仍可能存在明显差异。例如，同样是一千万个参数，采用 32 位浮点数存储和采用 8 位整型存储，最终形成的模型文件大小就会完全不同。因此，参数量虽然是基础指标，但还需要结合模型大小一起分析。

3.2 模型大小

模型大小通常指模型文件在磁盘上的实际占用空间。与参数量相比，模型大小更接近模型在存储介质上的真实表现，也更能直接反映模型在保存、加载和传输时所带来的空间成本。

模型大小与参数量密切相关，但两者并不完全相同。参数量决定了模型中一共有多少个参数，而模型大小则不仅取决于参数个数，还取决于每个参数采用何种数据类型进行存储。不同精度下，每个参数所占用的字节数不同，因此即使参数量完全一样，模型文件大小也可能不同。通常情况下，如果采用 FP32 存储，每个参数占 4 字节；如果采用 FP16 存储，每个参数占 2 字节；如果采用 INT8 存储，每个参数占 1 字节。由此可以看出，模型大小本质上是参数量与参数表示精度共同作用的结果。

从近似关系上看，模型大小可以简单理解为：

模型大小 ≈ 参数量 × 单参数存储字节数

例如，一个包含 1000 万参数的模型，如果以 FP32 形式存储，那么其参数部分大小大约为 40MB；如果以 FP16 形式存储，则约为 20MB；如果进一步采用 INT8 存储，则约为 10MB。这个例子说明，模型大小不是一个单纯由结构决定的指标，它还受到数值表示方式的显著影响。

模型大小作为存储复杂度指标的重要性在于，它比参数量更贴近模型的实际存储成本。从模型管理的角度看，最终需要落盘、传输和加载的是模型文件，而不是抽象意义上的参数数量。因此，在判断模型是否轻量时，仅仅知道参数量还不够，还需要进一步知道模型究竟占用了多少实际空间。

从轻量化视角出发，模型大小越小，通常意味着模型在存储层面越紧凑，也越容易被视为轻量模型的重要候选特征。但需要注意的是，模型大小的减少有时来源于存储精度的降低，而不一定意味着模型结构本身已经显著压缩。因此，它需要与参数量结合分析，才能更完整地反映模型的存储复杂度。

3.3 存储复杂度的衡量意义

存储复杂度的意义在于，它从模型静态规模的角度，为“轻量”提供了最直接的判断基础。参数量回答的是模型结构上有多大，模型大小回答的是模型文件实际上占多大空间。二者结合起来，能够较完整地刻画模型在存储层面的轻重程度。

对于轻量模型而言，较低的存储复杂度通常意味着两层含义。其一，模型本身在结构上更紧凑，参数冗余更少；其二，模型在文件表示上更节省空间，更适合以较低成本进行保存和管理。从理论分析角度看，参数量小、模型大小小，通常可以认为模型在存储层面更接近轻量化目标。

同时也需要看到，存储复杂度虽然重要，但它毕竟只反映模型的静态属性。一个模型在参数量和文件大小上都不算大，并不意味着它在计算上就一定足够轻。例如，有些模型参数量不高，但由于中间计算过程复杂，FLOPs 和推理时延仍然较高。因此，存储复杂度只能回答模型“占得小不小”，还不能回答模型“算得轻不轻”。

也正因为如此，存储复杂度是判断模型轻量性的基础，但不是全部。它为模型轻量性提供了第一层衡量依据，而更进一步的判断，还需要转向计算复杂度。

4. 计算复杂度

如果说存储复杂度回答的是模型“有多大”，那么计算复杂度回答的则是模型“有多重”。一个模型即使参数量不多，也可能在一次前向推理中执行大量计算；相反，一个模型即使参数不少，也不一定意味着它在实际推理中就一定很慢。因此，仅从存储层面判断模型是否轻量是不够的，还必须进一步考察模型的计算负担。

从模型层面来看，计算复杂度主要体现在两个方面。一方面，是模型在数学运算意义上的理论计算量，通常使用 FLOPs 进行衡量；另一方面，是模型实际完成一次推理所需的时间，通常使用推理时延进行衡量。前者偏理论分析，后者偏实际执行结果。

4.1 FLOPs

FLOPs 是衡量模型理论计算量最常用的指标之一，通常表示模型在一次前向推理过程中需要完成的浮点运算次数。对于卷积神经网络、Transformer 以及其他深度学习模型而言，FLOPs 可以用来近似描述模型在数学运算层面的复杂程度。

从本质上说，FLOPs 反映的是模型为了得到输出，需要在内部执行多少加法、乘法等数值运算。一般而言，FLOPs 越高，说明模型在理论上需要进行的计算越多，其计算负担也越重。因此，在比较两个完成同类任务的模型时，FLOPs 往往是衡量其理论轻重程度的重要依据。

以卷积网络为例，卷积层通常是 FLOPs 的主要来源。卷积核大小、输入输出通道数以及特征图分辨率都会直接影响该层的 FLOPs。也正因为如此，许多轻量化网络设计的核心思路，实际上就是通过改造卷积形式、减少通道数或降低特征图尺寸来压缩 FLOPs，从而降低模型的理论计算复杂度。

需要强调的是，FLOPs 本质上是一个理论指标。它描述的是模型从数学运算角度需要付出的计算成本，而不是模型在真实执行环境中的实际耗时。因此，FLOPs 适合用于分析模型设计本身的计算复杂度，但不能直接等同于模型运行时的速度表现。

4.2 FLOPs 的衡量意义

FLOPs 的价值在于，它为模型计算复杂度提供了一个相对统一、可比较的分析尺度。不同模型即使结构形式不同，只要任务相近、输入规模相近，就可以通过 FLOPs 大致比较它们在理论计算量上的轻重程度。

对于轻量模型而言，较低的 FLOPs 往往意味着较小的理论计算负担。这并不意味着模型一定更快，但至少说明在纯数学运算层面，它需要完成的工作量更少。因此，在网络结构设计阶段，FLOPs 常常被用作衡量轻量化效果的重要指标。一个轻量化结构是否真正降低了模型复杂度，首先就可以从 FLOPs 的变化中得到初步判断。

此外，FLOPs 还有一个重要作用，就是帮助人们理解模型“为什么重”。参数量描述的是模型“存了多少”，而 FLOPs 描述的是模型“算了多少”。在很多情况下，一个模型参数量并不算特别大，但由于特征图分辨率高、运算次数多，FLOPs 依然可能很高。这说明模型的“重”并不总是来自参数本身，还可能来自内部的大量计算过程。正因为如此，FLOPs 与参数量通常需要配合分析，而不能彼此替代。

从轻量性判断的角度看，FLOPs 的意义在于，它让“计算复杂度”这一抽象概念变得可以量化。模型是否轻量，不仅要看它在存储上的静态规模，也要看它在计算上的理论负担。FLOPs 正是这一层面的核心指标。

4.3 推理时延

与 FLOPs 不同，推理时延衡量的是模型完成一次前向推理所需的实际时间。它描述的不是模型“理论上要算多少”，而是模型“实际上要多久才能算完”。从这个意义上说，推理时延是比 FLOPs 更贴近模型执行结果的指标。

推理时延通常以毫秒为单位，用来刻画模型在给定输入条件下完成一次推理的真实耗时。对于模型轻量性的判断而言，推理时延具有非常直接的意义：如果一个模型在实际执行中耗时较短，那么它在计算表现上通常更接近“轻”的状态；反之，如果一个模型尽管理论上看起来不算太复杂，但实际推理耗时较长，那么它在计算层面仍然难以被视为足够轻量。

推理时延的重要性在于，它补足了 FLOPs 作为理论指标的不足。FLOPs 反映的是模型设计层面的计算复杂度，而推理时延反映的是模型执行层面的结果表现。一个模型是否轻量，最终不能只停留在理论分析上，还需要落实到它在推理时到底表现如何。从模型层面看，推理时延为轻量性判断提供了更接近实际的一层依据。

当然，这里所讨论的推理时延，重点仍然是把它作为模型复杂度的一种表现形式来理解，而不是展开分析更广泛的系统级时延影响因素。本文的重点不在于具体部署环境中的性能优化，而在于强调：对于模型本身而言，推理时延是衡量其计算轻重程度的重要结果性指标。

4.4 FLOPs 与推理时延的差异

FLOPs 和推理时延都属于计算复杂度指标，但它们反映的并不是同一层面的信息。FLOPs 是理论计算量指标，关注的是模型从数学运算角度需要执行多少计算；推理时延是实际执行结果指标，关注的是模型真正完成一次推理需要花费多少时间。

两者之间存在关联，但并不能简单等同。一般而言，FLOPs 较低的模型往往更有可能获得较短的推理时延，因为它在理论上需要完成的计算更少。然而，这种关系并不是严格的一一对应。不同模型结构即使 FLOPs 相近，实际推理时延也可能不同；某些模型即使 FLOPs 较低，推理时延依然可能不够理想。这说明理论计算量与实际耗时之间并不是完全重合的概念。

从模型分析的角度看，FLOPs 更适合用来回答“这个模型理论上重不重”，推理时延更适合用来回答“这个模型实际执行时快不快”。前者偏向结构层面的复杂度刻画，后者偏向结果层面的性能表现。也正因为如此，在判断模型轻量性时，只看 FLOPs 会失之抽象，只看推理时延又可能缺乏结构层面的解释力。将两者结合起来，才能更完整地把握模型在计算复杂度上的轻重程度。

因此，FLOPs 与推理时延的差异，并不意味着二者彼此冲突，而是说明它们描述的是模型计算复杂度的两个不同侧面。前者属于理论描述，后者属于实际表现；前者回答“算多少”，后者回答“算多久”。对于模型轻量性的判断，这两类信息都不可缺少。

5. 单一指标的局限性

在衡量模型是否轻量时，单一指标往往只能反映问题的一个侧面，而无法给出完整判断。无论是参数量、模型大小、FLOPs 还是推理时延，都有各自明确的意义，但也都存在天然的局限性。正因如此，轻量性不能通过某一个指标的优劣来简单下结论。

仅看参数量是不够的。参数量小，只能说明模型在结构上的静态规模较小，但不能说明模型文件一定小，也不能说明模型计算一定轻。有些模型虽然参数量不高，但如果在计算过程中大量使用高分辨率特征图，FLOPs 仍然可能很高。

仅看模型大小同样不够。模型文件小，可能只是因为采用了更低精度的参数存储方式，但模型本身的结构和计算过程并没有发生明显变化。也就是说，模型大小小，并不自然推出模型一定“算得轻”。

仅看 FLOPs 也存在局限。FLOPs 描述的是理论计算量，它能够反映模型在数学运算层面的复杂程度，但不能直接代替模型的实际执行表现。一个模型理论计算量较低，并不意味着它的推理时延一定短。

只看推理时延也不够充分。推理时延固然接近模型的实际执行表现，但它属于结果性指标，无法完整解释模型为什么快或为什么慢。如果缺少参数量、模型大小和 FLOPs 等结构层面的指标配合分析，就难以从模型本身理解其轻量性的来源。

因此，单一指标的局限性本质上说明了一点：模型轻量性不是单维度概念，而是多个复杂度特征共同作用的结果。某一个指标表现良好，并不能自动推出模型整体上就是轻量的；只有在多个关键指标上都表现出较低复杂度，模型才更有可能被认为是真正意义上的轻量模型。

6. 模型轻量性的综合判断

在建立了存储复杂度和计算复杂度的分析框架之后，可以进一步给出模型轻量性的综合判断思路。从模型层面看，一个模型是否轻量，本质上需要同时回答两个问题：它是否占得小，以及它是否算得轻。

“占得小”主要通过参数量和模型大小来判断。如果一个模型参数量较少，同时模型文件体积也较小，那么它在存储层面通常可以认为更接近轻量化目标。参数量表明模型结构是否紧凑，模型大小表明这种紧凑性是否真正体现在实际存储空间上。二者配合，可以较完整地评价模型的静态规模。

“算得轻”主要通过 FLOPs 和推理时延来判断。如果一个模型理论计算量较低，同时实际推理耗时也较短，那么它在计算层面通常也更接近轻量模型的要求。FLOPs 用于分析模型结构本身的计算负担，推理时延用于反映这种计算负担最终表现出的执行结果。二者结合，可以更全面地判断模型在计算上的轻重程度。

基于上述两个方面，可以对模型轻量性形成一个较为清晰的综合判断逻辑：一个模型如果在参数量、模型大小、FLOPs 和推理时延这四个指标上都表现出较低复杂度，那么它通常可以被视为较为典型的轻量模型；如果它只在某一个指标上占优，而在其他指标上依然偏重，那么就不能简单地下结论说它已经足够轻量。

需要注意的是，这种综合判断并不意味着四个指标必须同时达到某个统一阈值，而是强调它们应当共同构成对模型轻量性的多维度描述。轻量性不是某一个数字的结果，而是模型在静态规模与计算负担两个层面上都表现出相对收敛的复杂度特征。也就是说，真正意义上的轻量模型，不仅文件小、参数少，还应当计算相对简单、推理相对高效。

从这个角度看，模型轻量性的综合判断，本质上是对“存得下”和“算得动”这两个能力的统一考察。只有同时在这两个方面表现良好，模型才更有资格被称为轻量模型。

7. 总结

衡量一个模型是否轻量，不能停留在模糊的描述上，而应当建立在明确的指标分析之上。从模型层面出发，轻量性主要可以归结为两个核心维度：存储复杂度和计算复杂度。

存储复杂度关注模型本身占多大，主要通过参数量和模型大小来衡量。参数量反映模型结构的静态规模，模型大小反映模型文件的实际空间占用。二者共同刻画了模型在存储层面的轻重程度。计算复杂度关注模型算多重，主要通过 FLOPs 和推理时延来衡量。FLOPs 描述模型在理论上的计算负担，推理时延描述模型在实际执行中的耗时表现。二者共同刻画了模型在计算层面的轻重程度。

需要特别指出的是，任何单一指标都不足以完整定义模型轻量性。参数量小，不代表模型文件一定小；模型文件小，不代表理论计算量一定低；FLOPs 低，不代表推理时延一定短。只有将参数量、模型大小、FLOPs 和推理时延结合起来分析，才能对模型是否轻量形成更全面、更客观的判断。

因此，从模型层面看，所谓轻量模型，本质上是指那些在存储复杂度和计算复杂度两个方面都相对收敛的模型。它不仅占得更小，也算得更轻。明确了这一点，后续就可以进一步追问另一个更深层的问题：模型为什么会重，以及如何从网络结构设计的角度降低模型复杂度。

【模型轻量化专题】衡量模型轻量性的指标