SigmaScale:基于SVD低秩分解与学习缩放矩阵的LLM压缩方法
摘要
介绍SigmaScale,一种为基于SVD的LLM压缩学习辅助缩放矩阵的方法,在Llama 3.1 8B和Qwen3-8B基准测试上展现出具有竞争力的性能。
arXiv:2606.07098v1 Announce Type: new
摘要:我们提出SigmaScale,一种学习辅助缩放矩阵$S$的方法,用于辅助基于截断奇异值分解(SVD)的大语言模型(LLM)压缩。SigmaScale不是通过解析方式推导缩放矩阵,而是在激活感知的压缩损失下优化两组定义对角行和列缩放变换的向量。我们表明,学习得到的缩放降低了权重矩阵的有效内在秩,这体现在有效秩熵的减少上,并且这种减少与压缩损失强相关。在Llama 3.1 8B Instruct和Qwen3-8B上的实验表明,SigmaScale在困惑度和零样本基准测试上与紧密相关的现有最先进的基于SVD的压缩方法具有竞争力。通过使用学习到的激活感知变换,SigmaScale通过适应单个模型权重的结构,探索了一条更灵活的低秩LLM压缩路径。在特定任务中观察到的优势使我们的方法成为需要降低LLM推理计算成本的应用的可行选择。
查看缓存全文
缓存时间: 2026/06/08 09:22
# 基于SVD低秩分解与学习缩放矩阵的LLM压缩 来源:https://arxiv.org/html/2606.07098 Ernests Lavrinovics¹, Marco Letizia²,³,⁴, Roy Janco⁵, Shai Segal, Johannes Bjerva¹, Maurizio Pierini⁴, ¹丹麦奥尔堡大学计算机科学系(哥本哈根校区),²意大利热那亚大学MaLGa\-DIBRIS,³意大利国家核物理研究院热那亚分部,⁴欧洲核子研究中心(CERN),瑞士日内瓦,⁵Ceva公司。通讯作者:[email protected] (https://arxiv.org/html/2606.07098v1/mailto:[email protected]) ###### 摘要 我们提出SigmaScale,一种学习辅助缩放矩阵S的方法,用于辅助基于截断奇异值分解(SVD)的大型语言模型(LLM)压缩。与通过解析方式推导缩放矩阵不同,SigmaScale优化两组向量,这些向量在激活感知的压缩损失下定义对角行和列缩放变换。我们表明,学习到的缩放降低了权重矩阵的有效本征秩(通过有效秩熵的降低反映),并且这种降低与压缩损失密切相关。在Llama 3.1 8B Instruct和Qwen3-8B上的实验表明,SigmaScale在困惑度和零样本基准测试上与最相关的基于SVD的压缩方法具有竞争力。通过学习激活感知变换,SigmaScale通过适应单个模型权重的结构,探索了一条更灵活的低秩LLM压缩途径。在特定任务上观察到的优势使我们的方法成为需要降低LLM推理计算成本的应用中的一个有效选项。 SigmaScale:基于SVD低秩分解与学习缩放矩阵的LLM压缩 Ernests Lavrinovics¹†††, Marco Letizia²,³,⁴, Roy Janco⁵, Shai Segal††††, Johannes Bjerva¹, Maurizio Pierini⁴, ¹丹麦奥尔堡大学计算机科学系(哥本哈根校区),²意大利热那亚大学MaLGa\-DIBRIS,³意大利国家核物理研究院热那亚分部,⁴欧洲核子研究中心(CERN),瑞士日内瓦,⁵Ceva公司。通讯作者:[email protected] (https://arxiv.org/html/2606.07098v1/mailto:[email protected]) ## 1 引言与背景 大型语言模型(LLM)在各种自然语言处理任务中表现出卓越的性能和泛化能力[Brown et al., 2020 (https://arxiv.org/html/2606.07098#bib.bib1)],并且研究已证明其性能随参数数量的增加而提升[Kaplan et al., 2020 (https://arxiv.org/html/2606.07098#bib.bib2)],从而促使了数百亿乃至数千亿参数超大规模语言模型的发展[Grattafiori et al., 2024 (https://arxiv.org/html/2606.07098#bib.bib5); DeepSeek-AI, 2026 (https://arxiv.org/html/2606.07098#bib.bib4); Yang et al., 2025 (https://arxiv.org/html/2606.07098#bib.bib3)]。高参数数量影响了技术的可及性,并且由于推理系统的高功耗,对环境影响显著[Bommasani et al., 2021 (https://arxiv.org/html/2606.07098#bib.bib6)]。因此,人工智能研究界长期以来一直在探索模型压缩方法[Zhu et al., 2024 (https://arxiv.org/html/2606.07098#bib.bib18); Liu et al., 2025a (https://arxiv.org/html/2606.07098#bib.bib7)],涵盖量化[Liu et al., 2025b (https://arxiv.org/html/2606.07098#bib.bib33); Ashkboos et al., 2024 (https://arxiv.org/html/2606.07098#bib.bib36); Frantar et al., 2023 (https://arxiv.org/html/2606.07098#bib.bib37)]、剪枝[Zhu et al., 2025 (https://arxiv.org/html/2606.07098#bib.bib41)]、知识蒸馏(KD)[Yang et al., 2024 (https://arxiv.org/html/2606.07098#bib.bib30); Xin et al., 2026 (https://arxiv.org/html/2606.07098#bib.bib35)]以及低秩分解[Yuan et al., 2023 (https://arxiv.org/html/2606.07098#bib.bib14); Wang et al., 2024 (https://arxiv.org/html/2606.07098#bib.bib8); Saha et al., 2024 (https://arxiv.org/html/2606.07098#bib.bib40)]。尽管这些方法取得了成功,但量化和剪枝的实际部署需要专门的硬件支持,这是一个局限,而低秩分解和知识蒸馏方法则没有这个问题。 参见图标题图1:处理流程示意图 低秩分解方法将给定矩阵W ∈ ℝ^{m×n}近似为两个低秩矩阵L ∈ ℝ^{m×k}和R ∈ ℝ^{k×n}的乘积,其中k ≪ min(m,n)。这意味着低秩分解通常不需要专门的硬件支持,并且可以与量化和剪枝一起部署[Yuan et al., 2023 (https://arxiv.org/html/2606.07098#bib.bib14); Wang et al., 2024 (https://arxiv.org/html/2606.07098#bib.bib8)]。 Eckart–Young–Mirsky定理[Eckart and Young, 1936 (https://arxiv.org/html/2606.07098#bib.bib13); Mirsky, 1960 (https://arxiv.org/html/2606.07098#bib.bib12)]指出,为最小化Frobenius范数||W - W′||_F(其中W是原始权重矩阵,W′是其低秩近似),最优解析解由截断奇异值分解(SVD)给出: f_svd^(k)(W) = U_k Σ_k V_k^T = ∑_{i=1}^k u_i σ_i v_i^T. (1) 这里,U_k ∈ ℝ^{m×k}和V_k ∈ ℝ^{n×k}分别包含W的前k个左、右奇异向量,而Σ_k ∈ ℝ^{k×k}是一个对角矩阵,包含相应的k个最大奇异值(降序排列)。仅保留前k个奇异值及其对应的奇异向量,实际上丢弃了与较低能量模式相关的分量。然而,SVD的一个缺点是其计算成本,对于方阵为O(n^3)[Shishkin et al., 2019 (https://arxiv.org/html/2606.07098#bib.bib11); Kishore Kumar and Schneider, 2017 (https://arxiv.org/html/2606.07098#bib.bib10)],并且其导数不稳定,因此人们使用基于泰勒展开的近似来逼近其梯度[Wang et al., 2022 (https://arxiv.org/html/2606.07098#bib.bib38), 2025 (https://arxiv.org/html/2606.07098#bib.bib39)]。这意味着在优化过程的每一步执行SVD有其局限性,并且随着矩阵规模增大而难以扩展。 此外,对权重矩阵W进行朴素SVD分解以最小化Frobenius范数||W - W′||_F,在神经网络权重矩阵上表现不佳[Hsu et al., 2022 (https://arxiv.org/html/2606.07098#bib.bib17); Yuan et al., 2023 (https://arxiv.org/html/2606.07098#bib.bib14)],部分原因是激活中存在异常值。因此,先前的工作[Nagel et al., 2020 (https://arxiv.org/html/2606.07098#bib.bib28); Wang et al., 2024 (https://arxiv.org/html/2606.07098#bib.bib8); Saha et al., 2024 (https://arxiv.org/html/2606.07098#bib.bib40)]将激活x纳入损失函数||Wx - W′x||_F,以针对给定权重矩阵优化其功能性而非结构。先前的工作进一步扩展了这一思想,通过将线性可逆缩放矩阵S应用于W,目的是:(1) 吸收激活中的异常值[Yuan et al., 2023 (https://arxiv.org/html/2606.07098#bib.bib14)],(2) 通过激活协方差矩阵的Cholesky分解将奇异值与压缩损失对齐[Wang et al., 2024 (https://arxiv.org/html/2606.07098#bib.bib8); Li et al., 2026 (https://arxiv.org/html/2606.07098#bib.bib16)]。 由于压缩会引入一定的性能损失,通常会对压缩后的模型进行微调以重新对齐其权重。然而,这对LLM来说并不直接,主要是因为这些模型经历了多阶段的训练后处理。理想情况下,要在压缩后实现忠实的分布恢复,需要访问原始训练后阶段使用的相同数据集。实际上,这通常是不可行的,因为流行的开源权重模型技术报告[Grattafiori et al., 2024 (https://arxiv.org/html/2606.07098#bib.bib5); Yang et al., 2025 (https://arxiv.org/html/2606.07098#bib.bib3)]并未披露其训练后使用的确切数据集。为此,知识蒸馏[KD, Hinton et al., 2015 (https://arxiv.org/html/2606.07098#bib.bib21)]已被证明有助于将模型重新对齐到其原始分布[Xin et al., 2026 (https://arxiv.org/html/2606.07098#bib.bib35)]。鉴于通过学习缩放矩阵来提高SVD性能的研究尚不充分,且先前方法[Yuan et al., 2023 (https://arxiv.org/html/2606.07098#bib.bib14); Wang et al., 2024 (https://arxiv.org/html/2606.07098#bib.bib8)]依赖于解析方式推导S,同时知识蒸馏被认为比监督微调更有利于性能恢复,我们做出以下贡献:(1) 关于在学习行和列缩放矩阵时的SVD压缩性能的实证结果。据我们所知,这是首次探索为这一目的学习缩放矩阵S的参数。(2) 知识蒸馏与监督微调在性能恢复方面的比较,使用了不同的压缩后性能恢复数据集。(3) 基于Llama 3.1-8B Instruction输出分布的自定义Alpaca数据集变体[Tao et al., 2023 (https://arxiv.org/html/2606.07098#bib.bib29)]。代码库链接见附录G (https://arxiv.org/html/2606.07098#A7)。 ## 2 方法论 我们流程的第一步是敏感性探测,用于确定模型每个层和模块的压缩级别,详见第2.1节 (https://arxiv.org/html/2606.07098#S2.SS1)。第二步是学习缩放矩阵,这些矩阵在对权重矩阵W执行截断SVD之前对其进行线性变换。学习到最优缩放矩阵后,我们对模型进行最终压缩,并进行压缩后微调以重新对齐权重。我们的实验基于Llama 3.1 8B-Instruct [Grattafiori et al., 2024 (https://arxiv.org/html/2606.07098#bib.bib5)] 和 Qwen3-8B 模型 [Yang et al., 2025 (https://arxiv.org/html/2606.07098#bib.bib3)]。流程可视化见图1 (https://arxiv.org/html/2606.07098#S1.F1)。 ### 2.1 用于确定截断秩的敏感性探测 敏感性探测通过定义一组压缩比c ∈ {0.1, 0.2, ..., 0.9} 来进行,这些压缩比用于使用公式2 (https://arxiv.org/html/2606.07098#S2.E2) 计算截断SVD的目标秩k。直观上,压缩比描述了分解后保留的参数数量的百分比。 k = c ||W|| (m + n)^{-1}. (2) 这里c表示压缩比,||W||是权重矩阵中的参数数量,m, n分别是W的行数和列数。 我们在条件模型中探测困惑度指标,方法是对每一层中每个独立的MLP和注意力权重矩阵在秩k处执行截断SVD压缩。这些信息用于找到整个模型中最优的一组压缩秩k,以实现全局目标压缩比,同时最小化困惑度的增加。这种秩搜索使用ASVD中引入的二分搜索算法[Yuan et al., 2023 (https://arxiv.org/html/2606.07098#bib.bib14)]。截断通过保留前k个奇异值并丢弃分布的尾部来实现。 ### 2.2 学习缩放矩阵与压缩后微调 对于给定的权重矩阵W ∈ ℝ^{m×n},我们初始化两个向量 d_r ∈ ℝ^m, d_c ∈ ℝ^n,使用缩放的高斯分布:d_{r,c} = (0.1) σ_W ε_{r,c},其中 ε_r ~ N(0, I_m),ε_c ~ N(0, I_n)。我们使用权重矩阵的标准差σ_W来缩放d_r和d_c的初始化,以使d_r和d_c与相应权重矩阵的缩放幅度相匹配。 从向量d_r和d_c出发,我们通过指数运算构造正对角缩放,定义为 S_r = diag(exp(d_r)) 和 S_c = diag(exp(d_c))。这些用于对模型权重W应用行和列缩放。然后我们执行截断SVD(公式1 (https://arxiv.org/html/2606.07098#S1.E1)),并在计算带有归一化项的激活感知损失(公式4 (https://arxiv.org/html/2606.07098#S2.E4))之前应用逆缩放(公式3 (https://arxiv.org/html/2606.07098#S2.E3))。 W′ = S_r^{-1} f_svd^(k) (S_r W S_c) S_c^{-1} (3) L_F = (1/(mn)) ||WX - W′X||_F^2. (4) 这里,W是原始权重矩阵,X是来自校准集的激活,W′是压缩后的权重矩阵。 学习完d_r和d_c后,我们构造最终的压缩权重矩阵W′并替换模型中的原始矩阵。我们首先对缩放后的权重矩阵应用截断SVD:f_svd^(k) (S_r W S_c)。然后通过吸收奇异值并应用逆缩放变换来获得最终的低秩因子: L = S_r^{-1} U_k √Σ_k, R = √Σ_k V_k^T S_c^{-1}, (5) 使得压缩后的矩阵满足 W′ = LR。最后,执行压缩后微调以重新对齐受损的权重矩阵。更多细节(包括伪代码)见附录B (https://arxiv.org/html/2606.07098#A2)。 ## 3 实验设置 在实验中,我们使用Qwen3-8B和Llama 3.1-8B-Instruction模型,专注于英语语言。所有困惑度测量均使用Wikitext2-raw-v1 [Merity et al., 2016 (https://arxiv.org/html/2606.07098#bib.bib27)] 测试集,包含n=141个样本,序列长度为2048。作为校准数据,我们使用来自Wikitext训练集的n=32个样本,序列长度为2048。使用Alpaca [Tao et al., 2023 (https://arxiv.org/html/2606.07098#bib.bib29)] 进行压缩后微调。完整的实现细节见附录B (https://arxiv.org/html/2606.07098#A2)。评估在五个下游任务基准上进行,许可条款总结于附录I (https://arxiv.org/html/2606.07098#A9)。我们的计算预算在附录C (https://arxiv.org/html/2606.07098#A3) 中描述。 在压缩后微调期间,我们冻结所有未被低秩分解修改的权重矩阵,并进行监督微调与知识蒸馏(KD,使用未压缩的教师模型)的比较。我们的实验设置不对令牌嵌入、层归一化或语言建模头进行压缩。我们与SVD-LLM [Wang et al., 2024 (https://arxiv.org/html/2606.07098#bib.bib8)] 和 ASVD+ [Yuan et al., 2023 (https://arxiv.org/html/2606.07098#bib.bib14)] 进行比较。
相似文章
ScaleSweep:通过块缩放初始化实现LLM的NVFP4训练后量化精度提升
ScaleSweep提出了一种针对LLM的NVFP4训练后量化的新型块缩放初始化方法,通过遍历可行的块缩放候选值来提高精度。在Llama和Qwen模型上的实验表明,在激进量化下,该方法保留了超过93%的全精度性能。
可训练的平滑旋转变换与学习到的通道缩放用于LLM量化
本文提出了可训练的平滑旋转变换,结合分位数鲁棒缩放和基于梯度的优化,以改进LLM的训练后量化,在LLaMA-3.2-1B的W4A4量化下实现了显著的误差降低。
体积微小,效果显著:大语言模型中的缩放向量研究
本文系统地研究了LLM归一化层中的缩放向量,揭示了它们通过自放大预条件效应优化训练,并提出了三种轻量级改进方案,在几乎不增加开销的情况下提升性能和扩展行为。
用于大语言模型压缩的联合结构化剪枝与混合精度量化
一种新颖的端到端大语言模型压缩框架,联合优化结构化剪枝与混合精度量化,在超低位宽精度下,相比于现有最先进方法实现了显著的困惑度降低和加速效果。
LiteFrame 扩展视频大语言模型效率(6分钟阅读)
LiteFrame 为视频大语言模型引入了一种高效的视频编码器,采用压缩令牌蒸馏技术,在保持准确率的同时,能够处理多达8倍的帧数并降低35%的延迟,为长视频理解开创了新的帕累托前沿。