归因盲点:检测语言模型何时依赖记忆而非检索到的上下文
摘要
提出计算现实监测(Computational Reality Monitoring)方法,用于检测语言模型何时依赖预训练记忆而非检索到的上下文,从而解决检索增强生成中的归因盲点问题。
arXiv:2605.26778v1 公告类型:新
摘要:检索增强生成旨在将语言模型的输出基于外部证据,但该领域尚无可靠方法验证检索到的上下文是否真正主导了生成过程——这是高风险部署的前提条件。标准假设认为上下文一致的输出意味着由上下文主导的输出,但当检索到的文档与模型的预训练数据重叠时,这一假设失效:模型可以完全从参数记忆中产生看似忠实的文本,且两种路径产生的输出无法区分。我们将这一失败称为归因盲点,并引入计算现实监测(Computational Reality Monitoring, CRM)来解决该问题。CRM 将认知科学中现实监测框架的原理付诸实践:通过比较有无上下文时的内部表征,可以发现输出级监测器系统遗漏的基于成员条件的表征差异。CRM 不验证单个生成使用了哪个来源;它检测预训练暴露是否留下可测量的内部轨迹信号,从而为来源归因建立必要的基础。在跨越三个家族的九个模型变体中,这种差异集中在特定架构的层模式中,得到区块级噪声干预的收敛支持,并在任务和数据集上泛化,而在领域混淆的基准上则失效。归因盲点是可测量的且部分可解决的:内部表征携带了输出级不可见的诊断信号,为系统建立了一个基础,使其内部对证据来源的感知能够指导外部行为。
查看缓存全文
缓存时间: 2026/05/27 09:08
# 检测语言模型何时依赖记忆而非检索到的上下文
来源:https://arxiv.org/html/2605.26778
## 归因盲点:检测语言模型何时依赖记忆而非检索到的上下文
Zhe Yu2∗, Wenpeng Xing1,2∗, Yunzhao Wei2, Bo Yang3, Chen Ye4, Gaolei Li5, Meng Han1,2,6
1浙江大学
2浙江大学滨江研究院
3国家金融科技测评中心
4杭州电子科技大学
5上海交通大学
6GenTel.io
∗同等贡献
###### 摘要
检索增强生成承诺将语言模型输出锚定在外部证据上,然而该领域尚无可靠方法验证检索到的上下文是否真正主导生成——这是任何高风险部署的前提条件。标准的假设是,与上下文一致的输出意味着受上下文支配的输出,但当检索到的文档与模型的预训练数据重叠时,这一假设便会失效:模型可以完全从参数记忆生成表面可信的文本,而两种路径会输出无法区分的文本。我们将这种失败命名为**归因盲点**,并引入**计算现实监控**(Computational Reality Monitoring, CRM)来解决它。CRM 将认知科学中现实监控框架的原则操作化:比较有上下文和无上下文时的内部表征,揭示输出级监控系统性地遗漏的、由成员条件决定的表征差异。CRM 并非证明单个生成使用了哪个来源;它检测预训练暴露是否会留下可测量的内部轨迹特征,从而为来源归因建立必要的基础。跨越三个模型家族的九种变型,这一差异集中在特定架构的层模式中,得到块级噪声干预的收敛支持,并能在任务和数据集之间泛化,同时在领域混淆的基准上失效。归因盲点是可以测量且部分可解决的:内部表征携带输出级别不可见的诊断信号,为那些对证据来源的内部感知能够支配其外部行为的系统奠定了基础。
## 归因盲点:检测语言模型何时依赖记忆而非检索到的上下文
Zhe Yu2∗, Wenpeng Xing1,2∗, Yunzhao Wei2, Bo Yang3, Chen Ye4, Gaolei Li5, Meng Han1,2,6
1浙江大学
2浙江大学滨江研究院
3国家金融科技测评中心
4杭州电子科技大学
5上海交通大学
6GenTel.io
∗同等贡献
## 1 引言
检索增强生成(Lewis et al., 2020 (https://arxiv.org/html/2605.26778#bib.bib1); Guu et al., 2020 (https://arxiv.org/html/2605.26778#bib.bib26); Borgeaud et al., 2022 (https://arxiv.org/html/2605.26778#bib.bib27))已成为将语言模型输出锚定在外部知识上的标准范式。其操作假设很简单:如果模型接收到相关文档作为上下文,它将利用该文档来指导生成。这一假设支撑着搜索、客户支持和医疗问答中的部署系统,在这些系统中,忠实锚定被视为一种安全属性。
这一假设仅凭输出是无法系统验证的。当检索到的文档与模型的训练数据重叠时——鉴于检索语料库通常涵盖预训练来源,这种情况很常见——模型可能会默认使用参数记忆而非外部上下文。生成的文本看似基于上下文,而实际计算路径是参数化的。我们将其称为**归因盲点**:当两个路径产生同样合理的文本时,输出级监控无法区分“来自上下文的读取”和“来自参数的回忆”。
先前的研究从错误的层次处理这个盲点。成员推理攻击(Shokri et al., 2017 (https://arxiv.org/html/2605.26778#bib.bib4); Carlini et al., 2021 (https://arxiv.org/html/2605.26778#bib.bib5); Shi et al., 2024 (https://arxiv.org/html/2605.26778#bib.bib6); Duan et al., 2024 (https://arxiv.org/html/2605.26778#bib.bib29))询问文档是否在训练期间见过——这是一个静态问题,而不是一个动态问题,即该文档是否驱动了特定的生成。RAG 忠实度指标(Liu et al., 2024 (https://arxiv.org/html/2605.26778#bib.bib2); Niu et al., 2024 (https://arxiv.org/html/2605.26778#bib.bib11); Liu et al., 2023 (https://arxiv.org/html/2605.26778#bib.bib25))检测上下文-记忆**冲突**,即输出明显与提供的上下文矛盾;我们的设置更困难,因为两个来源产生相同的表面文本。引用基准(Bohnet et al., 2022 (https://arxiv.org/html/2605.26778#bib.bib10); Es et al., 2024 (https://arxiv.org/html/2605.26778#bib.bib9))评估模型是否**声称**使用了上下文。共同的盲点:当两个模型产生相同的文本时,输出级信号无法区分模型是读取了上下文还是从记忆中回忆。
我们通过**计算现实监控**(CRM)来弥补这一差距,它改编自认知科学中的现实监控(Johnson et al., 1993 (https://arxiv.org/html/2605.26778#bib.bib7))。人类现实监控通过比较感官细节、上下文信息和认知操作来区分感知到的记忆和内部生成的记忆(Johnson et al., 1993 (https://arxiv.org/html/2605.26778#bib.bib7))。CRM 为语言模型生成操作化了这一逻辑:它比较模型在有检索上下文和无检索上下文时的内部表征,将表征差异视为诊断信号。核心见解:由成员条件决定的差异存在于**有上下文计算与无上下文计算之间的**间隙**中,而不是单独存在于任一路径中。CRM 检测由成员条件决定的表征差异——即当提供的上下文是模型在预训练中接触过的文档(成员)与未接触过的文档(非成员)时,内部状态是否存在差异。我们强调,CRM 并不证明单个生成使用了哪个来源;成员身份是来源归因的必要但不充分条件,它创造了参数化生成的**可能性**,而不是保证(参见第5节 (https://arxiv.org/html/2605.26778#S5) 和附录A (https://arxiv.org/html/2605.26778#A1))。CRM 建立了一个可测量的内部信号,未来的来源归因系统可以在此基础上构建——这是一个诊断基础,而不是最终的验证器。
我们的贡献如下:
1. **归因盲点**:我们形式化了一种失效模式,其中参数记忆和检索到的上下文在表面上一致,使得输出级的来源归因变得不可能。
2. **基于架构的层定位与因果证据**:在九个模型变体中,由成员条件决定的信号以三种依赖于架构的模式(双峰、中层、分散-后期)非单调地定位。块级噪声注入提供了因果证据,表明 CRM 识别的块有助于保留由成员条件决定的信息,验证了对于单层扰动无效的架构的分布式编码假设。
3. **方向设计与证据边界**:有监督的均值差方向普遍优于无监督的 PC1(ΔAUC +0.024–0.144)。CRM 跨任务(摘要、问答)和数据集(BookMIA AUC 0.84–0.97)泛化,经受住了同主题控制,并在领域混淆的基准(MIMIR)上失效,建立了边界条件。CRM-LTS 与基于梯度、基于注意力和基于 logit-lens 的基线具有竞争力,同时独特地支持层定位的因果解释。
4. **部署原型**:一个带有实时轨迹仪表板的 FastAPI 审计服务器展示了 CRM 紧凑的逐层标量特征如何实现低延迟的部署审计。
## 2 计算现实监控
#### 问题形式化。
设 \( \mathcal{M} \) 是一个模型,参数为 \( \theta \),在 \( \mathcal{D}_{\text{train}} \) 上预训练。对于查询 \( q \) 和检索到的上下文 \( c \),\( \mathcal{M} \) 产生 \( y_0 = \mathcal{M}(q) \)(无上下文)和 \( y_c = \mathcal{M}(c,q) \)(有上下文)。CRM 通过比较这两种条件下的内部表征,检测 \( c \in \mathcal{D}_{\text{train}} \)(成员条件)与 \( c \notin \mathcal{D}_{\text{train}} \)(非成员条件)。成员身份是一个实验代理,它创造了参数化生成的*可能性*(附录A (https://arxiv.org/html/2605.26778#A1))。
#### 三级框架。
CRM 在三个层次上检查内部表征。
- **第1层(黑盒)**:测量 BGE-M3(Chen et al., 2024 (https://arxiv.org/html/2605.26778#bib.bib16))在有无上下文生成之间的嵌入距离(Reimers and Gurevych, 2019 (https://arxiv.org/html/2605.26778#bib.bib30))。
- **第2层(灰盒)**:计算 LM 头部的逐步 KL 散度,聚合成五个统计量。
- **第3层(白盒)**,CRM 的核心:探测隐藏状态。
#### 潜在轨迹偏移(LTS)。
对于通过 PCA 方差比(>0.01)选择的目标层 \( \mathcal{L} \),我们提取最后一个 token 位置的隐藏状态 \( h_{\ell}^{0} \) 和 \( h_{\ell}^{c} \)。我们预留 \( n_{\text{cal}}=100 \) 个样本,用于通过 SVD 在位移向量 \( d_{\ell}=h_{\ell}^{c}-h_{\ell}^{0} \) 上计算 PC1 方向 \( v_{\ell} \);然后所有 \( N=250 \) 个样本都用于特征提取和通过 5 折分层 CV 进行评估。带符号的标量投影
\[
\text{LTS}_{\ell}=\langle h_{\ell}^{c}-h_{\ell}^{0},\; v_{\ell} \rangle \quad (1)
\]
捕获沿 \( v_{\ell} \) 的方向位移。对于有监督方向 \( v_{\text{sup}} \)(第4.5节 (https://arxiv.org/html/2605.26778#S4.SS5)),相同的校准子集用于计算均值差方向。使用每层的 PC1 会产生 9-22 个紧凑的轨迹特征。统一特征向量 \( \Phi=[\Phi_{\text{L1}},\Phi_{\text{L2}},\Phi_{\text{L3}}] \) 使用逻辑回归(Pedregosa et al., 2011 (https://arxiv.org/html/2605.26778#bib.bib22))和 XGBoost(Chen and Guestrin, 2016 (https://arxiv.org/html/2605.26778#bib.bib21))在 5 折分层 CV 下进行评估。完整方程和 L1/L2 定义见附录 P (https://arxiv.org/html/2605.26778#A16)。
图 1:计算现实监控框架。CRM 比较配对的无上下文和有上下文生成,提取序列级、token 级和潜在级发散特征,并使用得到的特征向量检测由成员条件决定的表征差异——这是预训练暴露是否重塑模型内部计算的诊断信号,而非逐生成来源验证器。
## 3 实验设置
我们采用受控的诊断设计:延续探测隔离了上下文-记忆交互,并消除了查询表述和指令遵循等混杂因素。
#### 模型与数据。
九个 Transformer(Vaswani et al., 2017 (https://arxiv.org/html/2605.26778#bib.bib17))变体:Llama-3.1-8B/Instruct(AI@Meta, 2024 (https://arxiv.org/html/2605.26778#bib.bib18))、Mistral-7B-v0.3/Instruct(Jiang et al., 2023 (https://arxiv.org/html/2605.26778#bib.bib19))和 Qwen2.5(7B/7B-Inst/14B/14B-Inst/32B-Inst)(Qwen et al., 2025 (https://arxiv.org/html/2605.26778#bib.bib20))。WikiMIA(Shi et al., 2024 (https://arxiv.org/html/2605.26778#bib.bib6)):每个模型 250 个平衡样本(128 token 段落;成员来自 2017-03-20 之前的 Wikipedia 转储,非成员来自 2018-02-01 之后)。跨数据集:BookMIA(Shi et al., 2024 (https://arxiv.org/html/2605.26778#bib.bib6))(Books3 领域划分;附录 M (https://arxiv.org/html/2605.26778#A13))。负对照:MIMIR Pile-Wikipedia 划分(Duan et al., 2024 (https://arxiv.org/html/2605.26778#bib.bib29))(附录 N (https://arxiv.org/html/2605.26778#A14))。目标层 \( \mathcal{L} \) 通过校准集位移向量上的 PCA 方差比 >0.01 来选择,过滤掉接近零方差的层;这为每个模型产生 9-22 层(表1 (https://arxiv.org/html/2605.26778#S4.T1),L3 维度列)。
#### 基线。
三个层级:(1) 黑盒似然(PPL、Zlib-PPL(Carlini et al., 2021 (https://arxiv.org/html/2605.26778#bib.bib5))、Min-K% Prob(Shi et al., 2024 (https://arxiv.org/html/2605.26778#bib.bib6)));(2) 访问匹配(单层 LTS、均值 LTS、仅 L1+L2);(3) 原始隐藏状态探测。完整细节:附录 Q (https://arxiv.org/html/2605.26778#A17)。
#### 评估。
5 折分层 CV(种子 42),ROC-AUC 及 95% 自助法置信区间。对照:标签置换、提示随机化(4 个模板)、同主题(BGE-M3 相似度匹配的非成员,\( n \approx 140 \))。方法:附录 D (https://arxiv.org/html/2605.26778#A4)。
## 4 结果
归因盲点预测了一个特定的经验特征:如果当两个路径产生合理的文本时,输出级监控无法区分生成条件,那么判别信号必定存在于别处——在模型的内部计算中。CRM 通过比较有上下文和无上下文时的表征直接检验这一预测。我们提供五条证据线:(i) CRM 一致地区分成员条件和非成员条件下的生成,而表面基线仍接近随机;(ii) 信号以潜在因素为主,L1+L2 贡献可忽略不计;(iii) 信号经受住同主题控制、标签置换和提示随机化;(iv) 由成员条件决定的差异定位于依赖于架构的层模式;(v) 方向位移(CRM-LTS)和各向同性幅度(L2)携带性质不同的信息。
### 4.1 主要结果
表 1:基于似然的基线无法区分源条件(AUC 0.55–0.60),而 CRM 在所有九个模型中一致区分成员条件和非成员条件下的生成(AUC 0.71–0.95)。**最佳似然 BL** = 三个 Tier-1 token 似然基线(PPL、Zlib-PPL、Min-K% Prob)中的最高 AUC,所有这些基线仅对文档文本进行操作,*没有* CRM 所利用的生成对比。95% 自助法置信区间在括号内。**增益** = CRM-LR − 最佳似然 BL。**L3 维度** = 目标层 LTS 特征的数量。
表 1 (https://arxiv.org/html/2605.26778#S4.T1) 展示了主要结果。
- **基线保持接近随机**(AUC 0.55–0.60),确认了 token 级记忆化信号在现代 LLM 中很弱。
- **CRM 一致地区分条件**(AUC 0.71–0.95,增益 +0.13 至 +0.38),并呈现家族级梯度:Qwen(均值 0.873)> Mistral(0.834)> Llama(0.743)。逻辑回归匹配或超过 XGBoost,这与关于高级概念线性表示的研究结果一致(Park et al., 2024 (https://arxiv.org/html/2605.26778#bib.bib24); Zou et al., 2023 (https://arxiv.org/html/2605.26778#bib.bib14); Templeton et al., 2024 (https://arxiv.org/html/2605.26778#bib.bib31); Bricken et al., 2023 (https://arxiv.org/html/2605.26778#bib.bib32))。
### 4.2 潜在信号与鲁棒性
表 2 (https://arxiv.org/html/2605.26778#S4.T2) 报告了一个决定性的实证发现:移除所有表面特征(L1+L2)在九个模型上使 LR AUC 的变化小于 0.01(均值 \( |\Delta| = 0.006 \))。由成员条件决定的差异几乎完全是潜在的——仅靠输出可访问信号不足以进行检测。
表 2:移除表面特征(L1+L2)使 AUC 变化小于 0.01——信号是潜在的。完整结果:附录 S (https://arxiv.org/html/2605.26778#A19)。
图 2:CRM 一致地超过似然和相似文章
语境之代价:在多模态检索增强生成中缓解文本偏差
本文识别并形式化了多模态RAG中的“再污染”现象,即添加准确上下文会导致模型因注意力崩溃(视觉盲区和位置偏差)而放弃正确预测。作者提出BAIR,一种无参数的推理时框架,能恢复视觉显著性并惩罚文本干扰因素,从而在医学、公平性和地理空间基准上提高可靠性。
误判鸿沟:当记忆投毒在自主AI系统中看似模型故障
本文识别了多智能体AI流水线中的一种结构性缺陷,即记忆层攻击可能被误判为模型失调,形式化定义了语义规范漂移(SND),并提出反事实组合测试(Counterfactual Composition Testing)和持久记忆信息流控制(Memory-Persistent Information-Flow Control)作为防御措施。
归因合同:生成式语言模型中的特征归因
本文介绍了归因合同(Attribution Contract),这是生成式语言模型中特征归因声明的一种规范,解决了特征定义不清以及归因方法评估方式模糊的问题。论文以自回归模型和扩散模型为例,展示了归因何时具有信息量,何时可能产生误导。
使用探针目标归因定位大型语言模型中的提示模糊性
介绍了PRIG,一种梯度归因方法,通过训练线性探针区分清晰提示和模糊提示,并将探针得分归因于残差流中的标记表示,从而定位大型语言模型中的提示模糊性,在合成和人工编写的基准测试上取得了强劲性能。
ORBIT:通过原点调控合并保留GenRetrieval中的基础语言能力
ORBIT提出了一种方法,通过跟踪参数距离并使用权重平均,缓解了为生成式检索微调的大语言模型中的灾难性遗忘,优于常见的持续学习基线。