权重剪枝放大偏见:压缩大语言模型在边缘人工智能中多方法研究

arXiv cs.LG 论文

摘要

本研究揭示了一个“智能剪枝悖论”:诸如 Wanda 等激活感知剪枝方法虽然保持了困惑度,但在边缘设备上部署的大语言模型中显著放大了偏见。

arXiv:2605.08137v1 公告类型:新 摘要:权重剪枝被广泛提倡用于在资源受限的物联网和边缘设备上部署大语言模型,但其对模型公平性的影响仍知之甚少。我们对三种指令微调模型(Gemma-2-9b-it、Mistral-7B-Instruct-v0.3、Phi-3.5-mini-instruct)在三种剪枝方法(随机、幅度、Wanda)下的四种稀疏度(10-70%)进行了受控实证研究,在12,148个BBQ偏见基准项目上进行测试,共进行了5次随机种子试验,总计产生2,368,860条推理记录。我们的研究结果揭示了一个智能剪枝悖论:激活感知剪枝(Wanda)几乎完美地保持了困惑度(Mistral-7B在50%稀疏度时仅增加3.5%),但却导致了最高的偏见放大,刻板印象依赖分数增加了83.7%,且在70%的稀疏度下,47-59%的先前无偏见项目出现了新的刻板行为。随机剪枝完全破坏了语言能力(困惑度超过$10^4$,甚至达到$10^8$),但只产生了随机机会的偏见。我们还证明,非结构化剪枝在真正的边缘硬件上提供了零存储节省和零推理延迟减少,这削弱了其在物联网部署中使用的主要动机。在180个密集与剪枝对比中,141个(78.3%)具有统计学意义($p < 0.05$),平均效应量为$|h| = 0.305$。已发表的量化研究报告称,多达21%的响应在偏见和无偏见状态之间翻转;我们的剪枝结果显示过渡率几乎是其三倍(47-59%),表明剪比对齐构成的风险比量化更高。这些发现表明,基于困惑度的评估提供了错误的安全感,即行为等效性,而物联网部署管道需要在边缘部署剪枝模型之前进行偏见感知的验证。
查看原文
查看缓存全文

缓存时间: 2026/05/12 06:51

# 权重剪枝放大偏见:针对边缘 AI 压缩大语言模型的多方法研究
来源:https://arxiv.org/html/2605.08137
Plawan Kumar Rath 本文表达的观点仅代表作者观点,不一定反映 Meta 的观点。本工作由作者以个人身份进行。本文被第七届世界 AIIoT 大会 / AIIoT 2026 录用。© 2026 IEEE。允许个人使用本材料。对于所有其他用途(无论当前或未来媒体),包括为广告或促销目的重新打印/重新发布本材料、创建新的集体作品、用于转售或重新分发到服务器或列表,或在他作品中重用本作品的任何受版权保护的组件,必须获得 IEEE 的许可。

###### 摘要

权重剪枝被广泛提倡用于在资源受限的物联网(IoT)和边缘设备上部署大语言模型(LLM),但其对模型公平性的影响仍未得到充分理解。我们对三个指令微调模型(Gemma-2-9b-it, Mistral-7B-Instruct-v0.3, Phi-3.5-mini-instruct)进行了受控的实证研究,采用了三种剪枝方法(Random, Magnitude, Wanda),在四种稀疏度水平(10–70%)下,使用 5 个随机种子对 12,148 条 BBQ 偏见基准测试项目进行测试,总计 2,368,860 条推理记录。我们的研究结果揭示了一个“智能剪枝悖论”:激活感知剪枝(Wanda)几乎完美地保留了困惑度(在 Mistral-7B 中,50% 稀疏度时仅增加 3.5%),但却产生了最高的偏见放大效应,刻板印象依赖得分增加了 83.7%,且在 70% 稀疏度下,47–59% 的先前无偏见项目表现出新的刻板行为。随机剪枝完全破坏了语言能力(困惑度超过 $10^4$ 并达到 $10^8$),但仅产生随机机会水平的偏见。我们进一步证明,非结构化剪枝在实际边缘硬件上无法提供存储节省,也无法降低推理延迟,这削弱了其在 IoT 部署中的主要动机。在稠密模型与剪枝模型之间的 180 次统计比较中,141 次(78.3%)具有显著性($p<0.05$),平均 |Cohen's $h$|=0.305。已发表的量化研究报告高达 21% 的响应在量化后在偏见和无偏见状态之间翻转 [24];我们的剪枝结果显示过渡率几乎是这一数字的三倍(47–59%),表明剪比对齐构成的风险类别上高于量化。这些发现表明,基于困惑度的评估提供了行为等效性的虚假保障,且 IoT 部署流程在将剪枝模型部署到边缘之前,需要进行偏见感知验证。

## I 引言

物联网(IoT)设备和边缘计算平台的普及,对在资源受限的硬件上部署智能语言能力的创造史无前例的需求 [1, 2]。大语言模型(LLM)的参数数量从数十亿到万亿不等,在推理、问答和对话任务中提供了最先进的性能 [3],但其计算需求(70 亿参数模型的内存需求通常超过 14 GB)远远超出了典型边缘设备的容量。这一差距激发了对模型压缩技术的大量研究,包括量化、剪枝和知识蒸馏 [4, 5],其中权重剪枝因其通过消除不必要的参数来减少模型大小和推理成本的潜力而受到特别关注 [6, 7]。

然而,为了边缘部署而匆忙压缩 LLM 的做法优先考虑了效率指标,如困惑度、参数数量和推理吞吐量,同时将模型质量视为单一的。隐含的假设是,具有可接受困惑度的剪枝模型保留了原始模型的所有与安全相关的行为。这种假设是危险的。关于压缩神经网络之前的工作表明,剪枝不成比例地影响代表性不足的子群体和长尾数据 [8, 9],多维安全评估显示,剪枝可以在降低退化危害的同时增加代表性危害 [10]。对于物联网应用而言,在模型可能在健康监控、智能家居助手或公共安全系统中自主运行的领域,未被察觉的偏见放大带来了更高的风险,因为部署的模型往往缺乏人工监督。

本文做出了四项贡献:

1. 1\. 一项受控的多模型、多方法实证研究,揭示了一个**智能剪枝悖论**:激活感知剪枝(Wanda [6])在保留语言建模能力的同时最大限度地放大了社会偏见,而随机剪枝则在破坏能力时不引入方向性偏见。这是一个违反直觉的发现,对剪枝方法的选择有直接影响。
2. 2\. 一项项目级别的过渡分析,证明在 70% 稀疏度的 Wanda 剪枝下,47–59% 的先前无偏见项目表现出新的刻板行为,并通过逻辑回归确认了明确的剂量-反应关系。
3. 3\. 实证证据表明,非结构化权重剪枝在实际边缘硬件(通过 MLX 使用的 Apple Silicon)上无法提供存储减少和推理加速,挑战了非结构化剪枝用于 IoT 部署的基本前提。
4. 4\. 评估差距的量化:3.5% 的困惑度变化掩盖了 83.7% 的偏见放大,24 倍的差异表明标准部署验证对于安全关键的 IoT 应用是不够的。

所有代码、剪枝脚本、评估管道和汇总结果均公开可用 [https://github.com/plawanrath/pruning-impact-analysis](https://github.com/plawanrath/pruning-impact-analysis),以支持可重复性。

## II 背景

### II-A 面向 LLM 的权重剪枝

权重剪枝从训练好的神经网络中移除参数以降低计算成本 [11, 12]。对于 LLM 而言,后训练剪枝(在已训练模型上操作,无需昂贵的重新训练)已成为部署管道中的实用方法 [6, 7, 13]。后训练剪枝通常采用三类:

**随机剪枝**以均匀随机方式移除权重,作为基线,用于测试剪枝的影响是源于选择标准还是源于稀疏性本身。

**幅度剪枝** [11] 移除绝对值最小的权重,其运作假设是小权重对模型输出的贡献最小。这是经典方法,得到了彩票假设 [14] 的理论支持。

**Wanda**(权重与激活)[6] 将重要性计算为权重幅度与输入激活范数的乘积:$\text{importance}_{ij} = \|W_{ij}\| \cdot \|X_{j}\|_{2}$。通过结合来自校准集的数据依赖激活统计信息,Wanda 在几秒钟内执行,达到了与需要权重重建的方法(例如 SparseGPT [7])相当或更优的性能。最近的扩展如 Wanda++ [26] 结合了区域梯度以进一步细化剪枝决策。非结构化剪枝(将单个权重归零)与结构化剪枝(移除整个神经元、头或层)之间存在关键区别。非结构化剪枝在给定的准确率水平下实现了更高的稀疏度,但需要硬件或软件中的稀疏矩阵支持才能实现效率提升 [4]。正如我们通过实证演示的那样,这一区别对 IoT 部署具有重要的实际意义。

### II-B LLM 中的偏见评估

LLM 中的偏见表现为两种不同的危害类型:**退化危害**,即模型生成明显的有毒内容;以及**代表性危害**,即模型系统地强化某些人口群体的刻板印象 [15]。我们采用问答偏见基准(BBQ)[16],因为其模糊条件(提供的上下文不足以确定人口统计答案)使得除“未知”之外的任何选择都成为刻板印象推理的直接、可解释的度量。这一特性使 BBQ 特别适合检测细微的对齐退化,因为即使微小的偏离“未知”也揭示了模型学习到的认识论校准的侵蚀。

## III 相关工作

### III-A 剪枝与公平性

剪枝与公平性之间的关系主要已在视觉模型中得到探索。Hooker 等人 [8] 确定了剪枝识别出的样本(PIEs),即受稀疏性系统性影响更大的数据点,并随后证明压缩一致地放大了对代表性不足子群体的不同对待 [9]。Tran 等人 [17] 提供了理论和实证证据,表明剪枝在不同群体间造成不同的影响,梯度范数的差异驱动了这一效应。Iofinova 等人 [18] 显示,在极端稀疏度下,剪枝后的视觉模型表现出增加的输出不确定性,这与偏见的增加直接相关。具体到 NLP,Proskurina 等人 [19] 发现,即使性能损失看起来微不足道,保留 70% 或更少权重的剪枝 Transformer 也会发展出性别、种族和宗教偏见。与我们调查最直接相关的是,Huang 等人 [32] 在意见总结的背景下检查了剪枝 LLM 中的公平性,发现即使任务质量看似保留,剪枝也会降低公平性,这一结论与我们的智能剪枝悖论 broadly 收敛。我们的研究沿着三个正交轴扩展了这项工作:(i)我们系统地变化剪枝标准(随机、幅度、激活感知),而不仅仅是稀疏度水平,隔离选择策略的作用;(ii)我们使用判别式模糊上下文基准(BBQ),允许进行项目级别的过渡分析,而不是总体公平性评分;(iii)我们通过在实际硬件上测量存储和延迟,将偏见发现与 IoT/边缘部署前提联系起来。Ramesh 等人 [22] 对剪枝、量化和蒸馏进行了比较研究,发现所有压缩技术都会降低语言模型的公平性,其中剪枝显示出特别明显的影响。

### III-B 压缩与 LLM 安全

具体在量化方面,Dutta 等人 [23] 发现,即使总体准确率下降不到 2%,也有 5–13.6% 的答案在量化下在正确和错误之间翻转,确立了总体指标系统地掩盖项目级别的行为变化。Hua 等人 [24] 将这一发现扩展到社会偏见,在 50 个量化模型和 13 个偏见基准中证明,高达 21% 的响应在量化后在偏见和无偏见状态之间翻转,高不确定性响应改变的可能性是自信预测的 3–11 倍。至关重要的是,总体偏见评分几乎保持不变(−1.1% 至 +1.6%),掩盖了高达 18.6% 的人口群体级别不对称性。这些量化发现激发了对剪枝的并行调查,其中多种剪枝标准(随机、幅度、激活感知)的可用性使得能够新颖地比较不同的参数选择策略如何与对齐保留相互作用,这是量化研究中缺失的一个维度,因为在量化研究中,压缩机制在参数间是统一的。Hong 等人 [20] 基于 DecodingTrust 评估框架 [30],对多个维度(包括公平性、毒性和鲁棒性)的压缩 LLM 进行了全面的可信度评估,发现压缩效应在信任维度上变化显著。Kharinaev 等人 [31] 进一步调查了量化对 LLM 安全性和可靠性的影响,加强了标准准确率指标无法捕捉与安全相关的行为变化的观点。

### III-C IoT 和边缘设备上的 LLM

在资源受限的设备上部署 LLM 仍然是一个活跃的研究挑战 [1, 2]。Aregawi 等人 [2] 评估了 Raspberry Pi 硬件上的量化 LLM,测量了能效和准确率的权衡。Wan 等人 [25] 调查了高效的 LLM 技术,包括面向边缘部署的模型压缩和系统级优化。然而,现有的 IoT 部署研究几乎完全集中在性能指标(延迟、吞吐量、能源)和总体准确率上,没有系统地评估用于边缘部署的压缩如何影响模型公平性——鉴于医疗、公共安全和智能助手领域的 IoT 应用与多样化的人群互动,这是一个关键的差距。

## IV 实验设置

### IV-A 模型

我们评估了代表不同架构系列的三个指令微调 LLM:Gemma-2-9b-it(Google,9B 参数)、Mistral-7B-Instruct-v0.3(Mistral AI,7B 参数)和 Phi-3.5-mini-instruct(Microsoft,3.8B 参数)。所有这三个模型都经过了后训练对齐(指令调优和/或 RLHF),使它们成为考虑用于边缘部署的模型的代表,其中安全感知行为很重要。除了 7B+ 模型外,包含 Phi-3.5(3.8B)测试了较小的模型(IoT 部署的自然候选者)是否对剪枝诱导的偏见表现出更大的脆弱性。

### IV-B 剪枝方法和稀疏度水平

每个模型都使用上述三种方法(Random、Magnitude 和 Wanda [6])在四种稀疏度水平下进行剪枝:10%、30%、50% 和 70%。剪枝应用于 Transformer 块中的所有线性层(注意力投影和 MLP 层),不包括嵌入、语言建模头和层归一化。对于 Wanda,我们使用来自 C4 数据集 [27] 的 128 个样本作为校准数据,序列长度为 2048。结合 3 个稠密基线,这产生了 39 种模型配置。

### IV-C

相似文章

小型LLM:剪枝与从头训练

arXiv cs.LG

本文实证比较了剪枝与从头训练小型语言模型的差异,发现在有限token预算下剪枝具有明显优势,但随着训练规模扩大,优势逐渐减小,尤其是在粗粒度剪枝情况下。

SlimQwen:探索大规模MoE模型预训练中的剪枝与蒸馏

Hugging Face Daily Papers

本文探讨了在预训练阶段压缩大规模混合专家(MoE)模型的结构化剪枝和知识蒸馏技术。研究表明,渐进式剪枝以及结合多标记预测蒸馏等策略,能够提升下游任务的性能。例如,通过将Qwen3-Next-80A3B压缩为更高效的23A2B模型,展示了这一方法的有效性。