量化破坏对齐：压缩大语言模型中偏见在不同模型与精度下的涌现

arXiv cs.LG 2026/05/18 04:00 论文

llm quantization bias alignment compression safety fairness

摘要

本文研究了训练后量化如何在指令调优的大语言模型中引入新偏见，发现3位精度导致6-21%之前无偏见的项目发展出刻板印象，而像困惑度这样的标准指标未能检测到这种退化。

arXiv:2605.15208v1 Announce Type: new Abstract: 大语言模型通常通过训练后量化进行压缩，以减少云和边缘部署的推理成本和内存占用，但人们对这种压缩对模型质量的影响仍知之甚少。现有研究通常只比较两种条件（全精度与单一量化变体），依赖聚合偏差指标，并且只评估单个模型家族，这使得无法区分渐进退化与阈值依赖的安全故障。我们对三个指令调优模型（Qwen2.5-7B、Mistral-7B、Phi-3.5-mini）在五个精度级别（BF16到3位）上进行了受控实证研究，使用了12,148个BBQ偏差基准项，跨越5个随机种子，总计911,100条推理记录。我们的结果显示，3位量化导致6-21%之前无偏见的项出现新的刻板行为，通过逻辑回归确认了清晰的剂量-反应模式，同时模型选择“未知”答案的意愿下降了17.4%。至关重要的是，这些项级别的变化对标准质量指标是不可见的：在所有三个模型中，困惑度在8位时增加不到0.5%，在4位时增加不到3%，但2.5-5.6%的项在4位时就已经出现了新的偏差。这些发现表明，聚合评估指标系统性地忽略了公平性关键退化，强调了在部署前需要明确测试偏见出现的质量感知压缩协议。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:37

# 量化抵消对齐：压缩LLMs中不同模型和精度水平下的偏见涌现
来源：https://arxiv.org/html/2605.15208
Plawan Kumar Rath  
本文所表达的观点仅代表作者个人，不一定反映 Meta 的观点。这项工作是在作者的个人能力范围内完成的。  
已被 IEEE Cloud Summit 2026 接收。© 2026 IEEE。允许个人使用此材料。如需用于任何当前或未来媒体的其他用途，包括为广告或促销目的重印/再版此材料、创建新的汇编作品、转售或再分发到服务器或列表，或重用本作品中任何受版权保护的部分，均需获得 IEEE 的许可。

###### 摘要

大型语言模型通常通过训练后量化进行压缩，以降低云端和边缘部署的推理成本和内存占用，但这种压缩对模型质量的影响仍然理解不足。现有研究通常只比较两种条件（全精度与单一量化变体），依赖聚合偏差指标，并评估单一模型系列，从而无法区分渐进退化与阈值相关的安全故障。我们对三个指令调优模型（Qwen2.5-7B、Mistral-7B、Phi-3.5-mini）在五个精度水平（BF16 到 3-bit）上，使用 5 个随机种子，共 12,148 项 BBQ 偏差基准项目进行了受控实证研究，总计 911,100 条推理记录。我们的结果显示，3-bit 量化导致 6–21% 的先前无偏项目出现新的刻板行为，且通过逻辑回归确认了清晰的剂量-反应模式，同时模型选择“未知”答案的意愿下降了 17.4%。关键的是，这些项目层面的变化对标准质量指标不可见：在三个模型中，8-bit 时困惑度增加不到 0.5%，4-bit 时增加不到 3%，但 4-bit 时已有 2.5–5.6% 的项目出现新的偏见。这些发现表明，聚合评估指标系统地忽视了公平性关键退化，强调了部署前明确测试偏见涌现的质量感知压缩协议的必要性。

## I 引言

自然语言处理领域已被参数规模达数千亿的大型语言模型（LLMs）重塑，其能力遵循可预测的缩放定律[1 (https://arxiv.org/html/2605.15208#bib.bib1),2 (https://arxiv.org/html/2605.15208#bib.bib2)]。然而，这种规模范式产生了关键矛盾：最先进的 LLMs 的巨大计算需求给实际部署带来了重大障碍，高推理延迟、大内存占用和惊人的能耗阻碍了其在资源受限环境中的使用，并增加了基于云服务的运营成本[4 (https://arxiv.org/html/2605.15208#bib.bib4)]。这催化了模型压缩技术的研究，以创建更小、更快、更高效的模型[3 (https://arxiv.org/html/2605.15208#bib.bib3)]。这对于云推理提供商尤其相关，量化模型可降低规模化的服务成本和延迟。然而，随着这些模型被集成到高风险应用中，它们容易产生幻觉[5 (https://arxiv.org/html/2605.15208#bib.bib5),6 (https://arxiv.org/html/2605.15208#bib.bib6)]、社会偏见放大[8 (https://arxiv.org/html/2605.15208#bib.bib8)]以及对抗性脆弱性[10 (https://arxiv.org/html/2605.15208#bib.bib10)]，对负责任部署构成了重大障碍。

尽管效率和可信度都明显重要，但当前研究将二者视为独立领域。压缩研究压倒性地优先考虑效率指标，如参数数量、内存使用和推理速度，仅通过困惑度或通用基准上的准确率等粗粒度指标衡量质量[4 (https://arxiv.org/html/2605.15208#bib.bib4)]。这隐含地将质量视为整体，掩盖了质量维度上的细微退化。相反，关于 LLM 质量的丰富文献，包括幻觉分类[5 (https://arxiv.org/html/2605.15208#bib.bib5)]、社会偏见评估框架[8 (https://arxiv.org/html/2605.15208#bib.bib8)]和多维度评估套件[11 (https://arxiv.org/html/2605.15208#bib.bib11)]几乎完全分析全精度、未压缩的模型。这忽略了实际现实：大量部署的 LLMs 将不可避免地为了满足运营约束而被压缩。压缩模型的行为不仅仅是其未压缩版本的一个不那么准确的版本；相反，它可能是一个性质不同的模型[19 (https://arxiv.org/html/2605.15208#bib.bib19)]。

本文做出了三项贡献：

1. 1.一项受控的多模型、多精度实证研究，揭示了跨三个指令调优模型家族的量化激进程度与偏见放大之间的剂量-反应关系。
2. 2.一种项目层面转换分析方法，可检测聚合指标不可见的质量退化，识别出先前无偏项目发展出新的刻板行为的案例。
3. 3.证据表明压缩选择性地损害了认知校准，导致模型丧失在模糊输入上保留判断的能力，并回归到预训练时代的刻板先验。

## II 背景

### II-A 模型压缩

LLM 压缩技术分为四类：剪枝移除单个权重或结构块（例如，注意力头、层）以减小模型大小[4 (https://arxiv.org/html/2605.15208#bib.bib4)]；量化将数值精度从标准浮点降低为低位表示[4 (https://arxiv.org/html/2605.15208#bib.bib4)]；知识蒸馏训练一个较小的学生模型来复制较大教师模型的行为[14 (https://arxiv.org/html/2605.15208#bib.bib14)]；低秩分解将权重矩阵近似为较小矩阵的乘积[1 (https://arxiv.org/html/2605.15208#bib.bib1)]。我们的研究侧重于训练后量化（PTQ），它在训练后使用校准数据集将权重映射到低精度格式，无需昂贵的重新训练[13 (https://arxiv.org/html/2605.15208#bib.bib13)]。变换器量化的一个关键挑战是结构化异常值的存在，即一小部分具有异常大幅值的激活值，这些值对注意力计算至关重要[13 (https://arxiv.org/html/2605.15208#bib.bib13)]。标准的逐张量量化必须同时容纳这些异常值和大多数较小的值在一个范围内，导致显著的精度损失，这为特定模型能力的不成比例退化提供了合理的机制。

### II-B LLM 质量维度

除了困惑度等聚合指标外，现代 LLM 评估针对特定故障模式。幻觉指的是生成看似合理但事实上不正确的内容（事实性幻觉）或与提供的源材料不一致的内容（忠实性幻觉）[5 (https://arxiv.org/html/2605.15208#bib.bib5),6 (https://arxiv.org/html/2605.15208#bib.bib6)]。社会偏见表现为两种不同的伤害类型：退化伤害，即模型生成明显有毒或刻板的内容；以及表征伤害，即模型在特定任务中系统性地表现不佳或强化对某些人口群体的刻板印象[8 (https://arxiv.org/html/2605.15208#bib.bib8),9 (https://arxiv.org/html/2605.15208#bib.bib9)]。我们采用问答偏见基准（BBQ）[20 (https://arxiv.org/html/2605.15208#bib.bib20)]作为主要评估工具，因为在其模糊条件下，提供的上下文不足以确定人口统计答案，此时任何选择“未知”以外的答案都是对刻板推理的直接、可解释的度量。

## III 相关工作

### III-A 量化与质量

经验证据表明，低位宽的量化显著增加了幻觉；在 Llama2-Chat 上的实验显示 8-bit 影响最小，但在 4-bit 时，包括生物医学和金融在内的多个领域的幻觉率显著增加[15 (https://arxiv.org/html/2605.15208#bib.bib15)]。对公平性的影响更为复杂：一些研究报告称，适度的量化（例如，50% 压缩）基本保留了模型的偏见特征[9 (https://arxiv.org/html/2605.15208#bib.bib9)]，而另一些研究则发现量化可能放大对代表性不足群体的差别待遇，其影响因语言[17 (https://arxiv.org/html/2605.15208#bib.bib17)]和模型家族[18 (https://arxiv.org/html/2605.15208#bib.bib18)]而异。结构化异常值机制[13 (https://arxiv.org/html/2605.15208#bib.bib13)]为这种不成比例的影响提供了一个假设。对细微推理至关重要的参数发现反映了真实的不一致性或实验条件的差异，这是我们的研究直接解决的一个空白。并发工作表明，聚合偏差指标掩盖了量化下项目层面响应的翻转，并确定了模型不确定性是跨 10 个模型和 13 个偏差基准的驱动因素[23 (https://arxiv.org/html/2605.15208#bib.bib23)]。我们的研究通过三个方法论进展补充了这一发现：一个五级剂量-反应分析揭示了偏差放大加速的压缩阈值；未知选择率作为认知校准损失的直接度量；以及方向性潜在偏差放大的隔离，即在全精度时无偏但在压缩下发展出刻板行为的项目。

### III-B 剪枝与质量

剪枝对公平性的影响是矛盾的；多维度安全评估发现，剪枝可能无意中减少退化伤害（可能通过通用生成质量损失），同时增加表征伤害，因为针对整体性能优化的剪枝标准可能会丢弃编码了少数群体知识的参数[9 (https://arxiv.org/html/2605.15208#bib.bib9),19 (https://arxiv.org/html/2605.15208#bib.bib19)]。这催生了“鲁棒剪枝”子领域，旨在寻找既保持准确率又保持对抗鲁棒性的稀疏子网络[12 (https://arxiv.org/html/2605.15208#bib.bib12)]。

### III-C 知识蒸馏与质量

知识蒸馏通过教师模型软标签概率分布传递的校准不确定性来减少幻觉，产生更接地气、更不自信的学生输出[7 (https://arxiv.org/html/2605.15208#bib.bib7)]。然而，公平性结果关键取决于教师模型的偏见特征：有偏的教师将其偏见传递给学生，而无偏的教师可以减少学生偏见，有时以牺牲通用能力为代价[8 (https://arxiv.org/html/2605.15208#bib.bib8),16 (https://arxiv.org/html/2605.15208#bib.bib16)]。量化模型（可能携带压缩引起的偏见）作为教师时的级联互动仍未探索。

## IV 实证案例研究：量化与偏见放大

### IV-A 动机与假设

前述章节揭示了一个一致的模式：量化对偏见的影响被报告为“混合”或“微妙”。这种模糊性源于三个方法论局限：

- •大多数评估只比较两种条件（全精度与一个量化变体），无法检测剂量-反应模式。
- •聚合偏差指标可能掩盖项目层面的变化，其中一些先前无偏的项目变得有偏，而其他项目则向相反方向移动。
- •很少有研究在相同条件下评估多个模型家族。

我们测试以下假设：训练后量化逐步降低模型对模糊输入保留判断的习得能力，导致先前无偏的响应转向训练数据中的刻板先验，并且这种效应在比特宽度上遵循剂量-反应关系。

### IV-B 实验设置

模型。我们评估了三个代表不同架构系列的指令调优大语言模型：Qwen2.5-7B-Instruct (Qwen/Qwen2.5-7B-Instruct)、Mistral-7B-Instruct-v0.3 (mistralai/Mistral-7B-Instruct-v0.3) 和 Phi-3.5-Mini-Instruct (microsoft/Phi-3.5-mini-instruct)。这三个模型都经过了指令调优，即它们已经经历了训练后对齐以遵循指令并表现出安全感知行为，这使得它们代表了在偏见缓解很重要的现实应用中部署的模型。我们注意到 Phi-3.5 有 3.8B 参数，小于 7B 类别的 Qwen 和 Mistral 模型。我们将其包括在内，以测试较小的指令调优模型是否对压缩引起的偏见表现出更大的敏感性，同时承认这引入了参数数量的混杂因素，无法干净地将架构效应与模型大小效应分离。

量化。每个模型在五个精度水平上评估：BF16（未压缩基准）、8-bit (Q8)、6-bit (Q6)、4-bit (Q4) 和 3-bit (Q3)。我们使用 MLX 框架[21 (https://arxiv.org/html/2605.15208#bib.bib21)]应用训练后量化，该框架执行仅权重量化，组大小为 64。这种方法反映了实际部署场景，其中模型在训练后被压缩以减少内存占用和推理成本。3 个模型 × \times 5 个量化水平的组合产生 15 个模型配置。

数据集。我们使用问答偏见基准（BBQ）[20 (https://arxiv.org/html/2605.15208#bib.bib20)]的模糊条件，来自 HuggingFace (Elfsong/BBQ)。我们将评估限制在模糊条件下，其中提供的上下文包含不足以确定哪个群体与问题相关的信息。在此条件下，正确答案始终是“未知/无法确定”，因此任何偏离到人口统计答案的选择都是刻板推理的直接度量。我们评估了五个偏见类别：年龄（1,840 项）、性别认同（2,836）、种族/民族（3,440）、宗教（600）和社会经济地位（3,432），总计 12,148 项。

推理协议。对于 15 个模型配置中的每一个，我们在所有 12,148 个 BBQ 项目上使用 5 个独立随机种子（42, 123, 456, 789, 1024）运行推理，每个配置产生 60,740 个生成，总计 911,100 条推理记录。我们使用每个模型的原生聊天模板，包含一条指示单字母响应的系统消息和一条包含上下文、问题和答案选项的结构化用户消息。生成参数设置为 temperature=0.3 =0.3 和 max tokens=5 =5。我们选择温度 0.3 而非贪心解码（temperature=0 =0），以允许受控程度的采样变化，同时仍将输出限制在足够突出系统模型行为的范围内；每个项目使用 5 个种子使我们能够在此设置下估计每个项目的响应一致性。响应使用多阶段提取器解析，该提取器处理精确字母匹配、标点后缀模式、句子形式模式和首有效字母回退。

指标。我们采用两个主要指标。刻板依赖分数（SRS）是分数

量化破坏对齐：压缩大语言模型中偏见在不同模型与精度下的涌现

相似文章

从信号退化到计算崩溃：揭示LLM量化的两种失效模式

量化LLM推理中的无声失败：基于分类法的空洞收敛与失败模式转变分析

仅靠拟合是不够的：极低量化大语言模型中的平滑性

量化如何改变可解释特征：语言模型的稀疏自编码器分析

分解LLM强化学习中MXFP4量化误差：可约简偏差、可恢复死区与不可约底限

提交意见反馈