面向校准引导的大语言模型压缩的输出空间分配成本:一项实证研究
摘要
本文实证研究了在无需训练的LLM压缩方法ROCKET中,使分配成本与输出空间目标对齐是否能提升压缩模型保真度。结果显示准确率与困惑度之间存在权衡,且在高压缩比下效果更为显著。
arXiv:2606.27785v1 公告类型:新
摘要:无需训练的大语言模型(LLM)压缩方法通常使用校准数据来指导压缩决策。ROCKET是一种结合稀疏字典分解与多选择背包问题(MCKP)分配的最新方法,其逐层分解基于输出重建目标,但使用权重空间的Frobenius误差作为MCKP分配成本。我们研究了使分配成本与输出空间目标对齐是否能提升压缩模型保真度。在Qwen3-8B模型上以50%压缩率进行实验时,我们的ROCKET-ActCost方法在8个零样本基准测试中平均准确率提升了0.8个百分点(53.1% vs 52.3%),但WikiText困惑度增加了16%(61.46 vs 52.98)。这种准确率-困惑度权衡表明,不同的分配目标有利于不同的下游指标。权重空间误差与输出空间误差之间的高相关性($>$0.99)限制了分配差异,从而解释了效果规模适中的原因。在Llama-3.2-1B模型上以20%压缩率进行实验时,两种方法产生了几乎相同的结果(准确率53.3% vs 53.5%,PPL 14.45 vs 14.66),表明在较低压缩率下成本函数的影响较小。
查看缓存全文
缓存时间: 2026/06/29 05:24
# 面向校准引导的大语言模型压缩的输出空间分配成本:一项实证研究 来源:https://arxiv.org/html/2606.27785 FARS,Qiong Tang²²²,Xiangkun Hu²²²,Xiangyang Liu²²²,Yiran Chen²²²,Yunfan Shao²²²。Analemma [email protected] ###### 摘要 大语言模型(LLM)的无训练压缩方法常使用校准数据来指导压缩决策。ROCKET 是一种将稀疏字典分解与多选择背包问题(MCKP)分配相结合的最新方法,它基于输出重构目标推导出逐层分解,但使用权重空间 Frobenius 误差作为 MCKP 分配成本。我们研究了将分配成本与输出空间目标对齐是否能提高压缩模型的保真度。在 Qwen3-8B 上以 50% 压缩比进行测试时,我们的 ROCKET-ActCost 在 8 个零样本基准测试中平均准确率提升了 0.8 个百分点(53.1% 对 52.3%),但 WikiText 困惑度增加了 16%(61.46 对 52.98)。这种准确率-困惑度权衡表明,不同的分配目标有利于不同的下游指标。权重空间与输出空间误差之间高度相关(>>0.99)限制了分配差异,解释了效果大小适中的原因。在 Llama-3.2-1B 上以 20% 压缩比进行测试时,两种方法产生几乎相同的结果(准确率 53.3% 对 53.5%,PPL 14.45 对 14.66),表明在较低压缩比下成本函数的效果较小。 > 披露:本文由 FARS(全自动研究系统)¹¹¹https://analemma.ai/fars/ 自主完成,包括构思、文献综述、实验设计与执行、结果分析以及稿件撰写。附带的代码已公开。²²²https://gitlab.com/fars-a/rocket-activation-aware-knapsack 人类作者贡献了审阅和少量编辑修改。他们已验证所有引用的参考文献的真实性,并确认所有报告的实验结果均来自实际代码执行。读者应注意,本稿件的行文和呈现主要由机器生成,可能无法达到完全由人类作者撰写的标准。 ## 1 引言 大语言模型(LLM)在各种任务中展现了卓越的能力,但其部署受到巨大内存和计算需求的制约(Zhu 等人,2024 (https://arxiv.org/html/2606.27785#bib.bib14))。训练后压缩方法通过在不重新训练的情况下缩小模型大小来应对这一挑战,其中低秩分解作为一种有前景的方法出现,它使用结构化因子来近似权重矩阵(Yuan 等人,2023 (https://arxiv.org/html/2606.27785#bib.bib20);Wang 等人,2025 (https://arxiv.org/html/2606.27785#bib.bib19))。 ROCKET(Ali 等人,2026 (https://arxiv.org/html/2606.27785#bib.bib4))是一种最新的无训练压缩方法,它将稀疏字典分解与通过多选择背包问题(MCKP)进行的全局预算分配相结合。对于每一层,ROCKET 从输出重构目标推导出其分解,在白化激活空间中操作,在该空间中输出误差等于变换后权重空间中的 Frobenius 误差。然而,在跨层分配压缩预算时,ROCKET 使用权重空间 Frobenius 误差作为 MCKP 成本,而不是作为分解动机的输出空间误差。 这种设计选择引发了一个自然问题:全局分配目标是否应与逐层分解目标对齐?激活感知方法如 AWQ(Lin 等人,2024 (https://arxiv.org/html/2606.27785#bib.bib16))和 ASVD(Yuan 等人,2023 (https://arxiv.org/html/2606.27785#bib.bib20))已经证明,考虑激活统计量可以提高压缩质量。我们假设使用输出空间误差作为 MCKP 分配成本——它直接测量压缩对校准分布下层输出的影响——可能比权重空间误差产生更好的下游性能。 我们通过提出 ROCKET-ActCost 来实证研究这一假设,该方法用等效的输出空间成本替换权重空间分配成本,并选择针对输出空间误差优化的逐层稀疏配置,利用已在性能分析期间可用的矩阵。在 Qwen3-8B 上以 50% 压缩比下,ROCKET-ActCost 的平均准确率提升了 0.8 个百分点(53.1% 对 52.3%),但困惑度增加了 16%,揭示了一种准确率-困惑度权衡。分析表明,权重空间与输出空间误差之间高度相关(>>0.99)限制了分配差异,252 层中仅有 70 层获得了不同的分配。在 Llama-3.2-1B 上以 20% 压缩比下,两种方法产生几乎相同的结果,表明在较低压缩比下该效果很小。 我们的贡献如下: - • 针对校准引导的大语言模型压缩,对输出空间 MCKP 分配成本进行了实证研究,测试了将分配目标与分解目标对齐是否能提高模型保真度。 - • 发现了一种准确率-困惑度权衡:在激进压缩下,输出空间成本提高了任务准确率,但使语言建模困惑度变差。 - • 分析表明,权重空间与输出空间指标之间的高误差相关性(>>0.99)从根本上限制了分配差异,解释了效果大小适中的原因。 ## 2 方法 我们研究了在 ROCKET 的多选择背包问题(MCKP)中使用输出空间误差作为分配成本,相对于原始权重空间误差,是否能提高压缩模型的保真度。 ### 2.1 背景:ROCKET 的 MCKP 公式 ROCKET(Ali 等人,2026 (https://arxiv.org/html/2606.27785#bib.bib4))是一种无训练压缩方法,它将快速稀疏字典分解与通过 MCKP 进行的全局预算分配相结合。对于权重为 W∈Rd1×d2、校准激活为 X∈RN×d1 的每个线性层,ROCKET 在白化激活空间中操作以导出数据自适应分解。 给定 Gram 矩阵 A=X⊤X 及其上三角 Cholesky 因子 L(其中 A=L⊤L),ROCKET 形成白化权重 WL=LW。关键见解是,原始空间中的输出重构误差等于白化空间中的 Frobenius 误差: ‖XW−XW^‖F = ‖LW−LW^‖F = ‖WL−W^L‖F。 (1) 该变换根据激活能量对误差进行重新加权,因此沿着罕见激活方向的误差贡献较小。 然后,ROCKET 对 WLWL⊤ 进行特征分解以获得数据自适应基,对系数矩阵施加结构化稀疏化,并求解最小二乘问题以获得最终分解 W^=L^{-1}D_final C_sparse。 为了在层间分配压缩预算,ROCKET 用多个候选配置(变化的秩 k 和稀疏度 s)对每一层进行性能分析,并解决一个带约束的 MCKP: min_{x_{l,i}∈{0,1}} ∑_{l=1}^{L} ∑_{i=1}^{K_l} e_{l,i} · x_{l,i},约束条件:∑_{l=1}^{L} ∑_{i=1}^{K_l} c_{l,i} · x_{l,i} ≤ C_total,∑_{i=1}^{K_l} x_{l,i}=1,∀l, (2) 其中 c_{l,i} 是参数计数,e_{l,i} 是层 l 选项 i 的重构误差。ROCKET 使用*权重空间*相对 Frobenius 误差作为成本: e_{l,i}^{weight} = (‖W_l - Ŵ_{l,i}‖_F) / (‖W_l‖_F)。 (3) ### 2.2 输出空间分配成本 虽然 ROCKET 的逐层分解源自输出重构目标(公式 (1)),但其全局分配使用权重空间误差(公式 (3))。这造成了潜在的不匹配:MCKP 目标平等对待所有权重空间方向,这与校准分布输出目标并不等价。 我们提出 ROCKET-ActCost,它将权重空间成本替换为*输出空间*(白化)误差: e_{l,i}^{out} = (‖W_{L,l} - Ŵ_{L,l,i}‖_F) / (‖W_{L,l}‖_F) = (‖LW_l - L Ŵ_{l,i}‖_F) / (‖LW_l‖_F)。 (4) 该成本直接测量秩截断对校准分布下层输出的影响,使分配目标与分解推导对齐。 重要的是,切换到输出空间误差也会改变每层和每个压缩级别的最佳稀疏配置(k_s 比例)。在性能分析期间,ROCKET 评估每层的多个 k_s 候选;ROCKET-ActCost 选择最小化输出空间误差的候选,而不是权重空间误差。由于 96.6% 的(层,压缩比)对在两种指标下具有不同的最佳 k_s 值,因此 ROCKET-ActCost 相对于 ROCKET-default 有效地改变了 MCKP 成本和逐层压缩配置。图 1 (https://arxiv.org/html/2606.27785#S2.F1) 展示了 ROCKET-ActCost 的流程。 参照标题 图 1:ROCKET-ActCost 概览。该方法通过将权重空间 Frobenius 误差 ‖W−Ŵ‖_F 替换为输出空间误差 ‖XW−XŴ‖_F(在白化空间中等价计算为 ‖W_L−Ŵ_L‖_F)来修改 ROCKET 的 MCKP 分配。两种方法共享相同的 SVD 分解和 MCKP 求解器,但在成本函数以及在性能分析期间选择的逐层稀疏配置(k_s 比例)上有所不同。 关键的是,ROCKET-ActCost 没有增加任何运行时开销。在性能分析期间,ROCKET 在映射回原始空间之前已经计算了白化权重 W_L=LW 和白化重构 Ŵ_L。输出空间误差和输出最优的 k_s 选择是从这些现有矩阵中计算得出的,无需额外的校准传递。无论使用哪种成本函数,MCKP 求解器运行时间相同。 ## 3 实验 我们评估 ROCKET-ActCost 与 ROCKET-default 的对比,以测试输出空间分配成本是否能提高压缩模型的保真度。 ### 3.1 实验设置 #### 模型与压缩比。 我们在两个设置上进行评估:(1) Qwen3-8B(Yang 等人,2025 (https://arxiv.org/html/2606.27785#bib.bib5))在 50% 压缩比下(激进压缩,主要评估),(2) Llama-3.2-1B(Meta AI,2024 (https://arxiv.org/html/2606.27785#bib.bib7))在 20% 压缩比下(较温和压缩,辅助检查)。Qwen3-8B 上 50% 的压缩比代表了一个具有挑战性的设置,其中分配决策具有显著影响。 #### 校准。 遵循 ROCKET 的设置,我们使用来自 RefinedWeb(Penedo 等人,2023 (https://arxiv.org/html/2606.27785#bib.bib8))的 256 个长度为 1024 的序列进行校准。对于 Qwen3-8B,我们运行两个校准种子(2023 和 42)并报告平均结果;对于 Llama-3.2-1B,我们使用单个种子。 #### 评估。 我们使用 lm-eval-harness(Biderman 等人,2024 (https://arxiv.org/html/2606.27785#bib.bib9))在 8 个零样本基准测试上进行评估:PIQA(Bisk 等人,2020 (https://arxiv.org/html/2606.27785#bib.bib24))、HellaSwag(Zellers 等人,2019 (https://arxiv.org/html/2606.27785#bib.bib10))、LAMBADA(Paperno 等人,2016 (https://arxiv.org/html/2606.27785#bib.bib11))、ARC-Easy、ARC-Challenge(Clark 等人,2018 (https://arxiv.org/html/2606.27785#bib.bib12))、SciQ(Welbl 等人,2017 (https://arxiv.org/html/2606.27785#bib.bib25))、RACE(Lai 等人,2017 (https://arxiv.org/html/2606.27785#bib.bib26))和 MMLU(Hendrycks 等人,2021 (https://arxiv.org/html/2606.27785#bib.bib13))。我们报告这些基准测试的平均准确率(AvgAcc)以及 WikiText-2(Merity 等人,2017 (https://arxiv.org/html/2606.27785#bib.bib27))的困惑度(PPL)。 ### 3.2 主要结果 表 1 (https://arxiv.org/html/2606.27785#S3.T1) 展示了 Qwen3-8B 在 50% 压缩比下的主要对比。除了输出空间 MCKP 成本外,ROCKET-ActCost 还使用输出最优的 k_s 比例(第 2 节);两种变体共享相同的性能分析流程,可直接比较。ROCKET-ActCost 的平均准确率比 ROCKET-default 高 0.8 个百分点(53.1% 对 52.3%),这表明输出空间分配成本更有效地捕捉了任务相关信息。然而,这种准确率提升伴随着困惑度权衡:WikiText PPL 从 52.98 增加到 61.46(恶化了 16%)。 表 1:Qwen3-8B 在 50% 压缩比下的主要结果。ROCKET-ActCost 将平均准确率提升了 0.8 个百分点,但困惑度增加了 16%。最佳值以**粗体**表示。 表 2 (https://arxiv.org/html/2606.27785#S3.T2) 显示了每个基准测试的细分。ROCKET-ActCost 在所有 8 个基准测试上都有改善,在推理任务上提升最大:ARC-Challenge(+1.5pp)、MMLU(+1.5pp)和 LAMBADA(+1.3pp)。 表 2:Qwen3-8B 在 50% 压缩比下按基准测试的准确率比较。ROCKET-ActCost 在所有 8 个基准测试上均有改善。值为两个种子的平均准确率(%)。最佳值以**粗体**表示。 这种准确率-困惑度权衡表明,在压缩下,困惑度和任务准确率衡量了模型保真度的不同方面,而输出空间成本更有利于任务相关信息而非语言建模质量。 ### 3.3 分析:误差相关性限制了分配差异 为了理解为什么尽管使用了不同的成本函数,效果大小仍然适中,我们分析了压缩候选之间权重空间与输出空间误差的相关性。在 Qwen3-8B 上,候选配置间 e_{l,i}^{weight} 和 e_{l,i}^{out} 的逐层 Spearman 秩相关系数超过 0.99,表明两种误差指标对候选的排序几乎相同。这种高相关性限制了两种成本函数之间 MCKP 分配所能产生的差异。 具体来说,在大约 252 个可压缩层中,约有 70 层在 ROCKET-ActCost 下获得了与 ROCKET-default 不同的分配,并且这些差异发生在边界决策点,其中多个候选具有相似成本。近乎相同的误差排序解释了为什么准确率提升仅限于 +0.8pp 而不是更大的增益。 ### 3.4 辅助设置:Llama-3.2-1B 在 20% 压缩比下 表 3 (https://arxiv.org/html/2606.27785#S3.T3) 展示了 Llama-3.2-1B 在 20% 压缩比下的结果。在这种较温和的设置下,两种方法产生几乎相同的结果:ROCKET-ActCost 显示出微小的困惑度改善(14.45 对 14.66),而准确率的差异可忽略不计(−0.2pp:53.
相似文章
基于语义级奖励的LLM校准
提出了CSR,一种直接在语义空间中使用新颖的语义校准奖励来校准LLM的框架,在多个数据集上将ECE降低了高达40%,并将AUROC相较于口头化置信度基线提升了高达31%。
量化破坏对齐:压缩大语言模型中偏见在不同模型与精度下的涌现
本文研究了训练后量化如何在指令调优的大语言模型中引入新偏见,发现3位精度导致6-21%之前无偏见的项目发展出刻板印象,而像困惑度这样的标准指标未能检测到这种退化。
通过联合优化架构与量化策略实现 LLM 压缩
来自 UiT 和奥斯陆大学的研究人员提出了一种可微分 NAS 框架,能够联合优化 LLM 压缩中的架构配置与混合精度量化策略。与先 NAS 后量化的顺序基线方法相比,该框架在七项推理任务中可实现最高 1.4 倍的推理加速,或最高 6% 的精度提升。
使用rtk、headroom和caveman削减LLM Token成本——基于实际工作负载测量的节省
对三个旨在降低编码代理LLM Token成本的开源工具(rtk、headroom和caveman)的详细分析,发现实际节省远低于声称值。
LLM代理中的忠实不确定性:实践中校准与效用权衡
一位从业者讨论了LLM代理中的校准与效用权衡,分享了基于验证器的流水线经验,该流水线将幻觉工具调用减少了约60%,但引入了延迟成本并丢失了简单的正确答案。