PRISM:一种将漂移分解为尺度、形状和头部的几何风险界

arXiv cs.CL 论文

摘要

本文介绍了 PRISM,这是一种几何风险界,将训练后大型语言模型(LLM)变体中的模型漂移分解为尺度、形状和头部三个维度,以诊断量化误差或灾难性遗忘等特定故障模式。

arXiv:2605.11608v1 公告类型:新论文 摘要:比较训练后的大型语言模型(LLM)变体,如量化模型、LoRA 适配模型和蒸馏模型,需要一种诊断方法来识别变体是如何发生漂移的,而不仅仅是判断其性能是否下降。现有的相似度评分指标,如 CKA 和 SVCCA,可以标记性能下降,但它们并未直接将表示漂移与风险或机制联系起来。我们提出了 PRISM(Proxy Risk Inference via Structural Mapping,通过结构映射进行代理风险推理),它利用 LLM 的线性输出头部及其主干网络在经验上近乎等距的结构,推导出目标模型与训练后变体之间交叉熵风险差距的闭式上界。该边界针对变体排名进行了校准,并将漂移分解为三个可独立测量的维度:尺度不匹配、形状不匹配和头部发散。每个维度对应一种独特的故障模式,包括低位宽量化下的形状失真、LoRA 遗忘下的尺度可分性以及 GGUF k-量化下的头部发散。因此,主导维度提示了补救方向,而不仅仅是发出性能下降警报。由于形状项是可微的,相同的几何结构也可作为训练期间的正则化器,以防止灾难性遗忘。在两个模型家族和五个基准测试中,PRISM 对变体的排名在训练后量化方面的平均 Spearman 相关系数为 0.820,在 LoRA 遗忘方面为 0.831,且其基于轴向引导的形状正则化器在缓解下游遗忘方面的综合表现优于经验回放。
查看原文
查看缓存全文

缓存时间: 2026/05/13 06:16

# 一种将漂移分解为尺度、形状和头部来源的几何风险界

来源: https://arxiv.org/html/2605.11608

###### 摘要

比较训练后的大语言模型(LLM)变体——包括量化、LoRA 适配、蒸馏后的模型——需要一种诊断工具,不仅能指出变体*是否*发生了漂移,还能 pinpoint*如何*漂移;现有的相似性评分(如 CKA、SVCCA)只能标记性能退化,却无法将其与风险或机制联系起来。我们提出了 **PRISM**(通过结构映射进行代理风险推断,Proxy Risk Inference via Structural Mapping),利用 LLM 的线性预测头部(linear head)以及经验上近等距的骨干网络特性,推导出交叉熵风险差 $\|\mathcal{R}_T - \mathcal{R}_P\|$ 的闭式上界。该上界经过校准以用于变体排序,并将漂移分解为三个独立可测的轴:*尺度不匹配*(scale mismatch)、*形状不匹配*(shape mismatch)和*头部分歧*(head divergence)。每个轴都对应一种独特的失效模式(低位数量化时的形状畸变、LoRA 遗忘时的尺度分离、GGUF k-quant 时的头部分歧),因此主导轴指向的是补救方向,而不仅仅是一个警告标志。由于形状项是可微的,同一几何结构也可作为训练期间的正则化项,以防止灾难性遗忘。在两个模型家族和五个基准测试中,PRISM 对变体的排序与平均斯皮尔曼相关系数 $r_s=0.820$(PTQ)和 $0.831$(LoRA 遗忘)高度一致,且基于轴引导的形状正则化器在减轻下游遗忘的综合表现上优于经验回放(experience replay)。

### 1 引言

随着大语言模型(LLLM)从预训练走向部署,一个新的瓶颈出现了:单个基础模型现在会产生许多训练后变体——包括量化(GPTQ[1](https://arxiv.org/html/2605.11608#bib.bib1)、GGUF、BitsAndBytes[2](https://arxiv.org/html/2605.11608#bib.bib2))、LoRA 适配[3](https://arxiv.org/html/2605.11608#bib.bib3)或蒸馏[4](https://arxiv.org/html/2605.11608#bib.bib4)——这些变体在发布前必须经过评估[5](https://arxiv.org/html/2605.11608#bib.bib5),[6](https://arxiv.org/html/2605.11608#bib.bib6)。现有的评估主要依赖于整体准确率或困惑度,这只能揭示变体性能是否退化,却未解释*原因*。结果,开发者在调试低位数量化失败、灾难性遗忘或预测头损坏时,往往不得不依赖昂贵的试错法。

目前缺失的是一种不仅能预测性能退化,还能识别模型中哪个组件偏离了基础检查点的诊断工具。

一种自然的替代方案是直接比较内部表示。先前的表示相似性方法——SVCCA[7](https://arxiv.org/html/2605.11608#bib.bib7)、CKA[8](https://arxiv.org/html/2605.11608#bib.bib8)和广义形状度量——用单一的对齐分数总结两个特征矩阵,这具有描述性但不具备诊断性。更根本地说,将任何此类分数提升为部署时的风险界面临三个障碍:(i) 以往没有任何相似性指标与部署预测头上的下游交叉熵风险挂钩[9](https://arxiv.org/html/2605.11608#bib.bib9),[10](https://arxiv.org/html/2605.11608#bib.bib10),[11](https://arxiv.org/html/2605.11608#bib.bib11);(ii) 虽然交叉熵在特征上是 Lipschitz 连续的,但朴素常数随头部的全谱范数缩放,在 LLM 词汇规模($V \sim 10^5$)下缺乏信息量;(iii) 可用的诊断工具必须进一步将界限分解为几何上可解释的轴,这些轴映射到不同的失效机制。

我们的关键见解是,现代 LLM 的两个结构特性共同解决了所有这三个障碍。线性 `lm_head` 作用于非线性骨干网络,使我们能够推导出更锐利的 Lipschitz 常数,该常数与成对的词嵌入距离相关,而非头部的谱范数,从而在 LLM 词汇规模下保持界限的信息量(第3.2节)。借助相关 LLM 之间隐藏表示的近等距性[12](https://arxiv.org/html/2605.11608#bib.bib12),[13](https://arxiv.org/html/2605.11608#bib.bib13),正交对齐产生的 Procrustes 残差可将特征误差*精确*分解为尺度和形状轴。结合协方差加权的头部项,这些要素构成了 **PRISM**(通过结构映射进行代理风险推断;图1),即目标模型与其变体之间交叉熵风险差的闭式上界。

PRISM 揭示了三个诊断轴:*尺度不匹配* $\Delta\rho$(激活幅度坍缩)、*形状不匹配* $1-\Omega$(特征几何畸变)以及协方差加权的*头部差异* $\gamma$(预测头分歧)。与标量相似性分数不同,这些轴对应不同的经验失效模式:低位数量化主要引起形状畸变,LoRA 微调导致激活尺度分离,输出投影量化则扩大头部分歧。

除了事后诊断,PRISM 还提供训练信号。在固定头部的 LoRA 微调下,头部差异项消失,使得可微的形状项成为骨干漂移的清晰正则化目标。这允许我们直接通过惩罚特征几何畸变来正则化微调,从而在无需回放的情况下减少灾难性遗忘(第5.4节)。

在经验上,跨越基于 Llama、Qwen、Ministral 和 DeepSeek 的变体以及五个基准测试,PRISM 始终如一地追踪了训练后量化(PTQ)和 LoRA 微调中的性能退化。该界限在量化变体上的平均斯皮尔曼相关系数为 0.820,在 LoRA 遗忘中为 0.831;除了排序之外,其轴还能区分不同的失效模式。此外,提出的基于轴引导的形状正则化器在减轻遗忘方面优于基于回放基线。

我们的贡献有三方面:

1. **理论**:一个具有三个诊断轴的闭式 CE 风险界。$\|\mathcal{R}_T - \mathcal{R}_P\|$ 的闭式上界表示为三个轴的总和:尺度 $(\Delta\rho)^2$ 和形状 $2\rho_T\rho_P(1-\Omega)$(来自精确的 Procrustes 残差分解),加上协方差加权的头部差异项(定理1;图1)。
2. **框架**:一个统一诊断,兼具训练目标功能。仅从特征和头部权重计算,该界限适用于 PTQ 和固定头部 LoRA;可微的迹形式 $\Omega$ 进一步使其成为防止灾难性遗忘的训练时正则化器(第5.4节)。
3. **实证**:在两种设置下排名一致,具有轴级定位能力。在 Llama 和 Qwen(附录 F.3 中的 Ministral, DeepSeek)上的五个基准测试中,该界限始终如一地排序 PTQ 变体($r_s=0.820$)和 LoRA 检查点($r_s=0.831$)(*预测性*);其轴分离了失效模式——Q2/Q3 PTQ 的形状畸变、跨任务 LoRA 漂移下的尺度分离、Qwen3 Q6_K/Q8_0 的头部分歧(*可分解性*);且基于轴引导的形状正则化器在综合缓解下游遗忘方面优于经验回放(*可操作性*)。

### 2 相关工作

##### 表示相似性和 Procrustes 形状度量

表示相似性统计量——SVCCA[7](https://arxiv.org/html/2605.11608#bib.bib7)、CKA[8](https://arxiv.org/html/2605.11608#bib.bib8)和广义形状度量框架[14](https://arxiv.org/html/2605.11608#bib.bib14)——测量激活矩阵之间的几何相似性,但它们与下游行为的联系仍然是一个未解决的问题[9](https://arxiv.org/html/2605.11608#bib.bib9),[10](https://arxiv.org/html/2605.11608#bib.bib10),[11](https://arxiv.org/html/2605.11608#bib.bib11);最近的一项可解码性界限[15](https://arxiv.org/html/2605.11608#bib.bib15)通过白化核和新训练的线性探针而非部署的预测头来触及下游。线性表示假设[12](https://arxiv.org/html/2605.11608#bib.bib12)以及同家族编码器之间的经验相对表示等距性[13](https://arxiv.org/html/2605.11608#bib.bib13)共同促使我们将对齐限制在正交群,而柏拉图表示假设[16](https://arxiv.org/html/2605.11608#bib.bib16)证实了同家族共享几何结构。PRISM 将 Procrustes 残差提升为部署头部上的闭式 CE 风险界;所得界限分裂为可单独测量的尺度、形状和头部组件(第3节)。

##### 训练后量化及其评估

训练后量化涵盖基于校准的方法(GPTQ[1](https://arxiv.org/html/2605.11608#bib.bib1)、二阶重构)和仅权重方案(GGUF k-quant、BitsAndBytes[2](https://arxiv.org/html/2605.11608#bib.bib2)),低位性能通常受限于激活异常值[17](https://arxiv.org/html/2605.11608#bib.bib17)。现有的廉价诊断方法——逐层重构损失或权重量化误差——是间接代理,未考虑通过整个网络的非线性误差累积。相比之下,PRISM 在单次前向传播中端到端地测量部署模型上的最终漂移(第5.2节)。

##### 参数高效微调下的灾难性遗忘

LoRA 微调[3](https://arxiv.org/html/2605.11608#bib.bib3)即使冻结 `lm_head` 也有风险导致预训练知识的灾难性遗忘。现有补救措施分为两类:权重空间约束(EWC[18](https://arxiv.org/html/2605.11608#bib.bib18))和数据空间复习(经验回放)。PRISM 的形状正则化器增加了第三种选择——一种可从界限分解中识别的特征几何约束:相对于冻结基础的 特征流形漂移($\Omega, \Delta\rho$)限定了下游风险差,并可用作事后诊断和训练时惩罚(第3.5节)。

##### 高效评估和性能预测

缩放定律[19](https://arxiv.org/html/2605.11608#bib.bib19),[20](https://arxiv.org/html/2605.11608#bib.bib20)预测整体损失,但不预测特定变体的退化;高效评估子集[21](https://arxiv.org/html/2605.11608#bib.bib21),[22](https://arxiv.org/html/2605.11608#bib.bib22)保留变体排序但不解释原因;弱到强泛化[23](https://arxiv.org/html/2605.11608#bib.bib23)针对标签生成而非风险估计。PRISM 则直接从特征比较中界定变体与基础的风险差,不依赖基准标签或整体损失外推(第3节)。

```text
Backbone       Features      Head           Risk
Target   T    φ_T         Z_T          H_T          R_T
Proxy    P    φ_P         Z_P          H_P          R_P

Input (x,y) ~ D

ΔR = ||R_T - R_P|| ≤ δ + γ
δ = K_feat ( (Δρ)^2 [scale] + 2ρ_Tρ_P(1-Ω) [shape] )
γ = K_pred || Σ_P^{1/2} (W H_T - H_P) [ΔH] ||_F
```

**图 1:PRISM(通过结构映射进行代理风险推断)的风险差分解。** 对于任何正交对齐 $W \in \mathcal{O}(d)$,交叉熵风险差 $\|\mathcal{R}_T - \mathcal{R}_P\|$ 受限于(定理1)特征对齐误差 $\delta$——该误差精确分解为*尺度不匹配* $(\Delta\rho)^2$ 和*形状不匹配* $2\rho_T\rho_P(1-\Omega_W)$(命题1)——以及头部差异 $\gamma = K_{\mathrm{pred}} \|\Sigma_P^{1/2} \Delta H\|_F$,其中 $\Delta H = W H_T - H_P$。正文使用单位对齐 $W=I$($\Omega$),在此情况下,只要 $H_T = H_P$(固定头部 LoRA、FP16 头部 PTQ),$\gamma$ 即为零;$W=I$ 和 Procrustes 最优 $W=W_N$ 均产生强排名相关性(第5.5节)。每个轴定位一个独特的经验区域:低位 PTQ 的形状畸变、量化 `lm_head` 的 GGUF k-quant 层级的头部分歧,以及 LoRA 遗忘下的尺度轴分离(第5.3节)。

### 3 交叉熵风险差的几何界

本节开发的 **PRISM**(通过结构映射进行代理风险推断)是交叉熵风险差 $\|\mathcal{R}_T - \mathcal{R}_P\|$ 的闭式上界,可分解为三个诊断轴(尺度、形状、头部)。我们基于 LLM 的两个结构特性构建它:作用于非线性骨干网络上的线性 `lm_head`,以及线性表示假设。

#### 3.1 设置

设 $T$ 为*目标模型*(例如,全精度基础模型),$P$ 为*代理模型*(例如,量化或微调变体),二者共享隐藏维度 $d$。每个模型分解为 Transformer 骨干网络 $\phi_M: \mathcal{X} \to \mathbb{R}^d$,后接线性预测头 $H_M \in \mathbb{R}^{d \times V}$(即 `lm_head`,词汇表大小 $V$)。模型 $M$ 在数据分布 $\mathcal{D}$ 下的风险是交叉熵期望:

$$
\mathcal{R}_M \;=\; \mathbb{E}_{(x,y) \sim \mathcal{D}} \! \big[ \ell \big( \phi_M(x) H_M, \, y \big) \big], \qquad \ell(v,y) = -v_y + \log \textstyle\sum_{j=1}^V e^{v_j}, \; v \in \mathbb{R}^V. \quad (1)
$$

将共享输入上的 $\phi_M$ 输出堆叠为行,我们形成 $Z_T, Z_P \in \mathbb{R}^{n \times d}$ 并定义 RMS 特征尺度 $\rho_M = \|Z_M\|_F / \sqrt{n}$ 以及经验(未中心化)协方差 $\Sigma_P = Z_P^\top Z_P / n$。模型表示间的经验等距性[13](https://arxiv.org/html/2605.11608#bib.bib13),与线性表示假设[12](https://arxiv.org/html/2605.11608#bib.bib12)一致,促使我们将注意力限制在两个骨干网络之间的正交对齐 $W \in \mathcal{O}(d)$ 上;PRISM 界限(定理1)对任何此类 $W$ 成立,其中对齐质量决定了界限在实际中的紧致程度。

#### 3.

相似文章

PRISM: 程序化时空推理基准

arXiv cs.AI

PRISM是一个大规模基准,包含10,372个人工校准的指令-代码对,用于评估程序化视频生成,并采用了一个漏斗式框架,包含四个指标。对七个大型语言模型的评估揭示了代码可执行性与空间一致性之间存在显著差距。

PRISM:探究大语言模型幻觉中的推理、指令与源记忆

arXiv cs.CL

研究人员提出了 PRISM 诊断基准,该基准将大语言模型(LLM)的幻觉拆解为四个维度(知识缺失/错误、推理错误、指令遵循错误),涵盖三个生成阶段(记忆、指令、推理),并通过评估 24 款大语言模型,揭示了各类缓解策略之间存在的权衡关系。