结构注意力税:检索格式如何独立于内容劫持上下文学习

arXiv cs.CL 论文

摘要

本文识别并形式化了'结构注意力税'现象,即检索内容的格式(例如知识图谱三元组)独立于语义相关性扭曲了LLM的注意力分布,导致演示注意力压缩。它提供了正式框架、跨模型和基准的实证证据,并提出了结构感知的缓解策略。

arXiv:2606.11198v1 公告类型:新 摘要:检索增强生成(RAG)系统注入外部知识以改进LLM输出,然而注入内容的格式——与其语义相关性不同——可以独立地扭曲模型的注意力分布。我们识别并形式化了一种我们称之为结构注意力税的现象:知识图谱(KG)三元组由于其关系分隔符和重复的槽模式,每个token捕获的注意力比语义等价自然语言文本多2-3倍($\hat{o}$(KG) $\approx$ 0.70 vs. $\hat{o}$(neutral) $\approx$ 0.25),将演示注意力压缩高达42%——无论三元组是相关还是噪声。我们开发了一个正式框架,将注意力分数分解为语义和结构成分(Eq. 2),推导出一个压缩界限(Proposition 1),将token级格式偏差与演示注意力损失联系起来,并表明结构项控制着注意力被转移的程度,而语义项控制着这是帮助还是伤害。这种解耦揭示了改进检索增强ICL的两个正交轴:优化检索质量(语义轴)和减少格式驱动的注意力捕获(结构轴)。实证上,跨两个模型家族(Mistral-7B, LLaMA-3-8B)和三个QA基准,我们观察到源任务对齐占主导地位:与任务匹配的BM25检索在HotpotQA上达到58-62%,而ConceptNet为25-27%,超过30个百分点的差距超过了所有门控策略($\leq$2个百分点)。我们从该框架推导出五种结构感知缓解策略,从零成本提示修改到训练时正则化;格式扁平化(S3)通过准确性和来自口头化三元组控制的注意力级证据得到验证,而结构分散(S1)产生了混合结果,揭示了格式级干预的挑战。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:34

# 检索格式如何独立于内容劫持上下文学习
来源: https://arxiv.org/html/2606.11198
## 结构注意力税:检索格式如何独立于内容劫持上下文学习

###### 摘要

检索增强生成(RAG)系统通过注入外部知识来改进大语言模型的输出,然而,注入内容的*格式*——与其语义相关性不同——能够独立地扭曲模型的注意力分布。我们识别并形式化了一种我们称之为**结构注意力税**的现象:知识图谱(KG)三元组由于其关系分隔符和重复的槽位模式,每个 Token 捕获的注意力比语义上等价的自然语言文本多 2–3 倍(σ^(KG)≈0.70 对比 σ^(neutral)≈0.25),将演示注意力压缩高达 42%——*无论三元组是相关还是噪音*。我们发展了一个形式框架,将注意力分数分解为语义和结构成分(公式 2 (https://arxiv.org/html/2606.11198#S3.E2)),推导了一个连接 Token 级格式偏差与演示注意力损失的压缩边界(命题 1 (https://arxiv.org/html/2606.11198#Thmproposition1)),并表明结构项控制*多少*注意力被转移,而语义项控制*这是否*有帮助还是有害。这种解耦揭示了改进检索增强上下文学习的两个正交轴:优化检索质量(语义轴)和减少格式驱动的注意力捕获(结构轴)。在实验方面,跨两个模型族(Mistral-7B, LLaMA-3-8B)和三个 QA 基准,我们观察到源任务对齐占主导:任务匹配的 BM25 检索在 HotpotQA 上达到 58–62%,而 ConceptNet 仅 25–27%,>30 个百分点的差距使所有门控策略(≤2 个百分点)相形见绌。我们从框架中推导出五种结构感知的缓解策略,范围从零成本的提示修改到训练时正则化;格式扁平化(S3)通过来自口头化三元组控制的准确性和注意力级别证据得到验证,而结构分散(S1)产生混合结果,揭示了格式层面干预的挑战。

## 1 引言

检索增强生成(RAG)(Jiang 等人,2023b (https://arxiv.org/html/2606.11198#bib.bib16); Sui 等人,2025 (https://arxiv.org/html/2606.11198#bib.bib19))已成为将大语言模型输出锚定于外部知识的标准策略。RAG 研究的主要关注点是*什么*被检索:选择相关段落(Parry 等人,2024 (https://arxiv.org/html/2606.11198#bib.bib29))、基于置信度进行门控(Jiang 等人,2023b (https://arxiv.org/html/2606.11198#bib.bib16)),或将知识图谱事实链入推理轨迹(Sui 等人,2025 (https://arxiv.org/html/2606.11198#bib.bib19))。然而,一个补充性问题受到的关注少得多:*检索内容的格式如何与 Transformer 的注意力机制交互,而独立于这些内容在语义上是否有用?*

我们表明,这个问题的重要性可能超乎表象。在基于 Transformer 的上下文学习(ICL)(Brown 等人,2020 (https://arxiv.org/html/2606.11198#bib.bib4); Chen 等人,2025 (https://arxiv.org/html/2606.11198#bib.bib24))中,所有提示区域都竞争同一个固定的注意力预算。当知识图谱三元组被注入提示时,其独特的结构——关系分隔符、重复的槽位模式、高 Token 级规律性——创建了一种*格式驱动的注意力分配偏差*,该偏差独立于三元组的语义内容运作。我们将此现象称为**结构注意力税**:对结构上显著的提示区域系统性过度分配注意力,同时相应地向演示和其他任务关键上下文*欠分配*(压缩)注意力。

我们的核心理论贡献是将注意力分数分解为语义和结构成分(第 3 (https://arxiv.org/html/2606.11198#S3) 节;图 1 (https://arxiv.org/html/2606.11198#S3.F1)),从而形式化地刻画了格式偏差如何与内容相关性交互:

- • 结构项 λ⋅σ(K) 决定注意力转移的*幅度*——有多少注意力单位从演示中被征税。
- • 语义项 s̄_K^sem 决定性能效应的*符号*——被转移的注意力携带的是有用信号还是噪声。

这种解耦意味着优化*什么*被检索(语义轴)和减少*格式驱动的捕获*(结构轴)是正交的改进策略,这一视角统一了若干先前不相关的观察结果(Shi 等人,2023 (https://arxiv.org/html/2606.11198#bib.bib23); Wu 等人,2024 (https://arxiv.org/html/2606.11198#bib.bib31); Liu 等人,2024 (https://arxiv.org/html/2606.11198#bib.bib14))。

我们通过四个贡献发展这个框架:

1.  1. 结构注意力税框架(第 3 (https://arxiv.org/html/2606.11198#S3) 节):一个在增强 ICL 中注意力竞争的正式分解,产生四个可检验的预测和一个可证明的压缩边界(命题 1 (https://arxiv.org/html/2606.11198#Thmproposition1))。
2.  2. 对格式–内容解耦的实证验证(第 5 (https://arxiv.org/html/2606.11198#S5) 节):通过跨两个模型族(Mistral-7B, LLaMA-3-8B)和三个 QA 任务的七条件研究,我们表明 KG 三元组每个 Token 吸收的注意力比中性文本多 2–3 倍,且噪音和相关的三元组表现出几乎相同的注意力模式——确认了结构税是格式驱动的,而非内容驱动的。
3.  3. 源对齐主导性结果(第 5.3 (https://arxiv.org/html/2606.11198#S5.SS3) 节):在 HotpotQA 上,任务匹配的 BM25 检索超过不匹配的 ConceptNet 检索 >30 个百分点,表明语义轴上的源选择使门控的精细程度(≤2 个百分点)相形见绌。该结果目前限于一个任务,且受到检索单元差异的混淆(第 8 (https://arxiv.org/html/2606.11198#S8) 节)。
4.  4. 五种结构感知的缓解策略(第 6 (https://arxiv.org/html/2606.11198#S6) 节):从框架推导,针对结构项 λ⋅σ(K),通过提示修改、logit 抑制和训练时正则化实现。两种策略经过实证评估:S3(格式扁平化)得到准确性和注意力级证据的支持(附录 LABEL:app:c5b);S1(结构分散)结果混合,揭示了格式层面干预的挑战(附录 LABEL:app:s1_dispersal)。其余三种有数学依据但未经测试。

**范围声明:** 我们不主张结构注意力税使 KG 增强普遍有害;我们主张其作为独立的、格式驱动的成本的存在一直被忽视(第 8 (https://arxiv.org/html/2606.11198#S8) 节)。

## 2 相关工作

**上下文学习。** Brown 等人(2020 (https://arxiv.org/html/2606.11198#bib.bib4))表明大语言模型无需梯度更新即可从演示中泛化。演示格式(Min 等人,2022 (https://arxiv.org/html/2606.11198#bib.bib12))、技能匹配(An 等人,2023 (https://arxiv.org/html/2606.11198#bib.bib13))和模式结构化提示(Chen 等人,2025 (https://arxiv.org/html/2606.11198#bib.bib24))都会影响性能。参数事实回忆在 ICL 能力之前退化于压缩下(Jin 等人,2023 (https://arxiv.org/html/2606.11198#bib.bib21))。Parry 等人(2024 (https://arxiv.org/html/2606.11198#bib.bib29))将 ICL 框架为应用信息检索。

**KG 增强与 RAG。** 流水线范围从三元组注入(Li 等人,2023 (https://arxiv.org/html/2606.11198#bib.bib9))到基于图的推理(Huang 等人,2023 (https://arxiv.org/html/2606.11198#bib.bib11))。FLARE(Jiang 等人,2023b (https://arxiv.org/html/2606.11198#bib.bib16))基于置信度门控检索;FiDeLiS(Sui 等人,2025 (https://arxiv.org/html/2606.11198#bib.bib19))将 KG 事实链入可验证的轨迹。Zheng 等人(2023 (https://arxiv.org/html/2606.11198#bib.bib22))表明 KG 三元组作为事实覆盖;Wu 等人(2024 (https://arxiv.org/html/2606.11198#bib.bib31))量化了参数先验与检索证据之间的“拉锯战”。Liu 等人(2024 (https://arxiv.org/html/2606.11198#bib.bib14))发现当思维链已经接近正确结论时,RAG 的增益有限;Shi 等人(2023 (https://arxiv.org/html/2606.11198#bib.bib23))表明大语言模型容易受到无关上下文的干扰。这些工作识别了检索可能有害的情况,但都没有将注意力失真的*格式驱动*成分与*内容驱动*成分分离开——这是我们框架的核心贡献。

**多跳推理。** 思维链(Wei 等人,2022 (https://arxiv.org/html/2606.11198#bib.bib15))和反向链接(Kazemi 等人,2023 (https://arxiv.org/html/2606.11198#bib.bib17))提高了多跳准确性。置信度校准(Deng 等人,2024 (https://arxiv.org/html/2606.11198#bib.bib27))以及记忆–推理区分(Jin 等人,2025 (https://arxiv.org/html/2606.11198#bib.bib20))激励了我们的任务对比。

**定位。** 我们的工作引入了*结构注意力税*作为一个正式概念,提供了一个分离检索增强 ICL 中格式效应与内容效应的分解框架,并推导了基于此分解的缓解策略。这通过识别一个正交的改进轴,补充了现有关于检索质量和门控的工作(Jiang 等人,2023b (https://arxiv.org/html/2606.11198#bib.bib16); Wu 等人,2024 (https://arxiv.org/html/2606.11198#bib.bib31))。

## 3 结构注意力税框架

自然语言:“A dog is a common pet. Cats are also animals.”
I演示35%知识25%查询35%↕相同知识内容,不同格式KG三元组:dog|IsA|pet; cat|IsA|animal
I20%知识 48%Q28%结构注意力税图 1:结构注意力税。每个条形显示第一个答案 Token 的最后一层注意力(总和为 100%)如何分布在四个提示区域:指令 (I)、演示 (D)、知识 (K) 和查询 (Q)。两行的知识内容相同;只有*格式*不同。将知识呈现为 KG 三元组(底部)使知识区域的注意力份额几乎翻倍(25% → 48%),并将演示注意力从 35% 压缩至 20%,无论三元组在语义上是否相关。虚线标记自然语言知识的边界;其左侧的注意力已从演示中被“征税”。(示例值;测量数据见第 5 (https://arxiv.org/html/2606.11198#S5) 节。)我们发展了一个关于注入知识的*格式*如何与 Transformer 的注意力机制交互的形式化描述,产生了四个可检验的预测(概览见图 1 (https://arxiv.org/html/2606.11198#S3.F1))。这些分解充当启发式框架,将原本不相关的观察组织成一个连贯的理论。

### 3.1 设置与符号

令 q 表示一个查询,其真实答案为 y\*。提示为 x = [I; D; K; q],包含指令 I、演示 D、可选知识 K 和问题 q。定义 c0(q) ≜ p(y\* | x_∅)(无知识)和 cK(q) ≜ p(y\* | x_K)(有知识)。

### 3.2 注意力分数分解

对于第 l 层的查询 Token i,K 上的注意力质量为 A_K^{(l)}(i) = Σ_{j∈K} exp(s_{ij}^{(l)}) / Σ_k exp(s_{ik}^{(l)})。由于注意力经过归一化,A_D + A_K + A_I + A_Q = 1。我们将注意力分数分解为语义和结构成分:

s_{ij}^{(l)} =  s_{ij}^{(l),sem} ⏟内容驱动 + b_j^{(l)} ⏟格式偏差。 (1)
分配给 K 的有效注意力分解为:
A_K^{(l,h)}(i) =  A_K^{(l,h),sem}(i) ⏟语义相关性 + λ^{(l,h)} ⋅ σ(K) ⏟结构注意力税, (2)
其中 σ(K) ∈ [0,1] 量化*结构强度*(三元组密度、分隔符频率、槽位重复性),λ^{(l,h)} 是模型内在的偏差系数。项 λ⋅σ(K) 是*结构注意力税*:仅由格式捕获的注意力,与内容相关、无关还是噪音无关。

###### 定义 1(结构捕获势)。
对于包含 m 个 Token 的区域 R:σ(R) = γ ⋅ (1/m) Σ_{j∈R} I[Token_j ∈ P_struct] + β_rep ⋅ rep(R),其中 P_struct 是结构化模式 Token 集合(关系关键词、分隔符、槽位标记),rep(R) 量化重复性。

**关键见解**是结构和语义成分扮演根本不同的角色:*λ⋅σ(K) 决定有多少注意力被征税;s̄_K^sem 决定这种税是否有帮助还是有害。*这种解耦产生了两个正交的改进轴:减少格式驱动的捕获(针对 σ(K) 或 λ)和改进检索质量(针对 s̄_K^sem)。

### 3.3 演示压缩边界

零和约束意味着结构税压缩演示注意力:
A_D^{(l),eff} = A_D^{(l),sem} - η ⋅ λ ⋅ σ(K) ⋅ A_D^{(l),sem} / Σ_{R≠K} A_R^{(l),sem}, (3)
其中 η ∈ [0.5,1.0] 是一个竞争系数。

###### 命题 1(演示压缩边界)。
如果 K 有 m 个 Token,平均 logit 值为 s̄_K,D 的平均 logit 值为 s̄_D,则:
A_D^{(K)} / A_D^{(0)} ≥ 1 / (1 + (m/T_0) ⋅ exp(s̄_K - s̄_D)). (4)
纳入结构分解,s̄_K = s̄_K^sem + λ⋅σ(K),因此:
A_D^{(K)} / A_D^{(0)} ≥ 1 / (1 + (m/T_0) ⋅ exp( s̄_K^sem + λ⋅σ(K) - s̄_D )). (5)
结构项 λ⋅σ(K) 出现在指数内,意味着即使是适度的格式偏差也会在压缩效应上被*指数放大*。当 λ⋅σ(K) ≫ |s̄_K^sem - s̄_D|

相似文章

动态线性注意力

arXiv cs.CL

本文提出DLA,一种用于多状态线性注意力的动态内存建模框架,它能根据令牌信息变化自适应地合并状态,并维护固定大小的状态缓存,从而在无需标准注意力二次复杂度的前提下实现更好的长上下文表示。

语境之代价:在多模态检索增强生成中缓解文本偏差

arXiv cs.CL

本文识别并形式化了多模态RAG中的“再污染”现象,即添加准确上下文会导致模型因注意力崩溃(视觉盲区和位置偏差)而放弃正确预测。作者提出BAIR,一种无参数的推理时框架,能恢复视觉显著性并惩罚文本干扰因素,从而在医学、公平性和地理空间基准上提高可靠性。

基于门控关联检索的通用三重潜在压缩

arXiv cs.CL

本文介绍了通用三重潜在循环模型,该模型将令牌对交互压缩为潜在状态,并提出一种改进精确召回的门控关联检索变体。该混合模型在字节级WikiText-2和分词语言基准上优于Transformer,实现了高达41.9%的关联召回率(对比25%)。