从上下文感知到冲突感知:将对比解码推广到LLM中的知识冲突

arXiv cs.AI 论文

摘要

该论文将对比解码推广到一种冲突感知范式,该范式在外部上下文和参数先验之间动态分配权威,提出了TriState-Bench评估协议,并引入了自适应机制路由(ARR)来解决修正与抵抗之间的不对称性。

arXiv:2606.10298v1 Announce Type: new \n Abstract: 当大语言模型从检索或增强的上下文中生成时,外部上下文与参数先验之间的冲突仍然是可靠性的核心瓶颈。现有的对比解码方法遵循\emph{上下文感知}范式,该范式单方面放大上下文而压制参数先验,当上下文错误时会覆盖正确的先验。我们将其推广到\textbf{冲突感知}范式,该范式根据冲突信号在先验和上下文之间动态分配权威,而不是预先假定上下文的可信度。我们证明先验和上下文logits的仿射组合产生了一个\textbf{幂族},其中存在固有的\textbf{机制不对称性}:当先验正确时,外推会无界地放大错误;当上下文正确时,内插则修正不足,且没有静态机制能同时覆盖两者。现有的对比解码方法都是该族中的实例,且大多是外推性的。为了评估两种冲突方向,我们提出了TriState-Bench,一个模型感知的评估协议,它校准每个模型的先验知识以测量三种冲突状态:修正、抵抗和一致。为了解决这种不对称性,我们提出了自适应机制路由(ARR),它在每一步在机制之间进行路由,将抵抗的精确匹配(EM)从低于6提升到16-33,同时不牺牲修正或一致。我们的代码可在 https://github.com/keith-Jiang/conflict-aware-decoding 获取。
查看原文
查看缓存全文

缓存时间: 2026/06/10 06:14

# 从上下文感知到冲突感知:泛化对比解码以应对LLM中的知识冲突  
来源:https://arxiv.org/html/2606.10298  

蒋润泽¹^,²,吴泰强³,王延²,朱炳宇²†,黄龙涛²  
¹北京大学,²阿里巴巴集团,³香港大学  
†通讯作者  

###### 摘要  

当大型语言模型基于检索或增强的上下文进行生成时,外部上下文与参数先验之间的冲突仍然是可靠性的核心瓶颈。现有的对比解码方法遵循*上下文感知*范式,单方面放大上下文对参数先验的影响,从而在上下文错误时覆盖正确的先验。我们将其泛化为**冲突感知**范式,该范式根据冲突信号动态分配先验与上下文之间的权威,而非预设上下文可信。我们表明,先验与上下文logits的仿射组合产生了一个**幂族**,具有内在的**机制不对称性**:当先验正确时,外推会无界地放大错误;当上下文正确时,内插则修正不足;且没有静态机制能兼顾两者。现有对比解码方法均属于该族的实例,且大多数属于外推模式。为评估两个冲突方向,我们提出**TriState-Bench**,一种模型感知的评估协议,可校准每个模型的先验知识以测量三种冲突状态:修正、抵抗和一致。为解决这种不对称性,我们提出**自适应机制路由(ARR)**,该方法在每一步在不同机制间进行路由,将抵抗状态的Exact Match从低于6提升至16-33,且不损失修正或一致性能。我们的代码可在 https://github.com/keith-Jiang/conflict-aware-decoding 获取。

## 1 引言  

当大型语言模型基于检索或增强的上下文进行生成时,外部上下文与参数先验之间的冲突仍然是可靠性的核心瓶颈。尽管LLM在其参数中编码了大量事实知识(Petroni et al., 2019 (https://arxiv.org/html/2606.10298#bib.bib15); Roberts et al., 2020 (https://arxiv.org/html/2606.10298#bib.bib17)),但这种参数记忆往往不完整、过时或错误(Mallen et al., 2023 (https://arxiv.org/html/2606.10298#bib.bib13); Kasai et al., 2023 (https://arxiv.org/html/2606.10298#bib.bib4)),从而激发了在推理时使用检索增强生成(Lewis et al., 2020 (https://arxiv.org/html/2606.10298#bib.bib7))和网络搜索(Nakano et al., 2021 (https://arxiv.org/html/2606.10298#bib.bib14))。当外部上下文与参数先验不一致时,就产生了*知识冲突*(Xu et al., 2024 (https://arxiv.org/html/2606.10298#bib.bib22))。

参见标题说明  
图1:统一的幂族框架(上)及所提出的ARR与现有方法的比较(下)。

为了解决这个问题,对比解码方法对比有无上下文时的输出分布(Shi et al., 2024 (https://arxiv.org/html/2606.10298#bib.bib18); Wang et al., 2025 (https://arxiv.org/html/2606.10298#bib.bib20); Yuan et al., 2024 (https://arxiv.org/html/2606.10298#bib.bib24); Khandelwal et al., 2025 (https://arxiv.org/html/2606.10298#bib.bib5))。这些方法遵循*上下文感知*范式,隐式假设上下文总是比先验更可靠,单向放大上下文相对于先验的logits增量。然而,当上下文错误时,这种单向放大会不加区分地将分布推向该上下文,覆盖先验的正确概率结构,使生成偏向错误答案。因此,我们将问题从上下文感知范式泛化为**冲突感知**范式:不再预设上下文可信,而是根据冲突信号在每一步解码时动态分配先验与上下文之间的权威。这将干预扩展到两侧,并处理两个对立的冲突状态:修正和抵抗。在该范式下,在logits空间中对 \(p_{\text{pri},t}\) 和 \(p_{\text{ctx},t}\) 进行单标量仿射组合,得到最小参数化表示:一个**幂族** \(q_{\tau,t}(y) \propto p_{\text{pri},t}(y)^{1-\tau} p_{\text{ctx},t}(y)^{\tau}\),现有方法均为其实例。该族在 \(\tau=1\) 处分为两个机制:*内插*(\(\tau \in (0,1)\)),即KL约束问题的唯一最优解,限制了信任重新分配;以及*外推*(\(\tau > 1\)),即一个惩罚目标,抑制先验偏好的token。出现**机制不对称性**:外推会覆盖正确的先验,内插则对正确的上下文权重不足,因此没有单一的静态机制能同时处理两者。现有对比方法主要位于外推侧,在结构上缺乏抵抗覆盖能力。

为了揭示并解决这种不对称性,我们同时从评估和解码两方面入手。在评估方面,我们提出**TriState-Bench**,一种模型感知的评估协议,动态地将每个问题分配到三种冲突状态之一(修正、抵抗或一致),分别衡量修正能力、先验保持能力和生成稳定性。在解码方面,我们提出**自适应机制路由(ARR)**,这是一种基于理论的冲突感知范式实例化,根据 \(p_{\text{prior},t}\) 和 \(p_{\text{ctx},t}\) 中的冲突信号在每一步在不同机制间路由。在四个模型族中,ARR覆盖了两种冲突方向,将抵抗状态的EM从低于6提升至16-33,且不损失修正或一致性能。

我们的贡献可总结如下:
- • **幂族与机制不对称性**。我们提出幂族作为冲突感知范式的最小参数化,涵盖了现有对比解码方法,并识别出内插与外推机制之间的不对称性。
- • **TriState-Bench**。首个用于知识冲突的模型感知三态基准,衡量修正、抵抗和一致。
- • **自适应机制路由(ARR)**。一种基于理论的冲突感知范式实例化,根据冲突信号在每一步动态地在两种机制间路由。

## 2 相关工作  

#### LLM中的知识冲突  
当上下文输入与存储在权重中的参数知识相矛盾时,就会产生知识冲突(Petroni et al., 2019 (https://arxiv.org/html/2606.10298#bib.bib15); Roberts et al., 2020 (https://arxiv.org/html/2606.10298#bib.bib17); Xu et al., 2024 (https://arxiv.org/html/2606.10298#bib.bib22))。现有的缓解方法分为两类:训练时微调以提高上下文忠实性(Li et al., 2023a (https://arxiv.org/html/2606.10298#bib.bib8); Zhou et al., 2023 (https://arxiv.org/html/2606.10298#bib.bib26))和推理时解码调整。后者进一步分为对比解码(重新权衡先验分布 \(p_{\text{pri},t}\) 与上下文分布 \(p_{\text{ctx},t}\))(Shi et al., 2024 (https://arxiv.org/html/2606.10298#bib.bib18); Wang et al., 2025 (https://arxiv.org/html/2606.10298#bib.bib20); Yuan et al., 2024 (https://arxiv.org/html/2606.10298#bib.bib24); Khandelwal et al., 2025 (https://arxiv.org/html/2606.10298#bib.bib5))和隐状态干预(修改中间表示或注意力模式)(Li et al., 2025 (https://arxiv.org/html/2606.10298#bib.bib9); Zhao et al., 2025 (https://arxiv.org/html/2606.10298#bib.bib25))。我们关注对比解码方法;隐状态方法作用于不同的内部对象,不在我们的范围内。

#### 知识冲突下的对比解码  
对比解码(Li et al., 2023b (https://arxiv.org/html/2606.10298#bib.bib10))最初用于对比专家模型与业余模型。后续工作将其适配到知识冲突,通过对比同一模型有无上下文时的输出分布(分别记为 \(p_{\text{ctx},t}\) 和 \(p_{\text{pri},t}\))。此类方法从静态权重到自适应权重,从单信号到多信号门控:CAD(Shi et al., 2024 (https://arxiv.org/html/2606.10298#bib.bib18))用固定的 \(\alpha\) 放大上下文相对于先验的logits差值;AdaCAD(Wang et al., 2025 (https://arxiv.org/html/2606.10298#bib.bib20))将固定权重替换为基于Jensen-Shannon散度的步进式系数;COIECD(Yuan et al., 2024 (https://arxiv.org/html/2606.10298#bib.bib24))引入token级冲突检测;CoCoA(Khandelwal et al., 2025 (https://arxiv.org/html/2606.10298#bib.bib5))将标量信号扩展到多信号门控。这些方法统一是上下文感知的;我们将其泛化为冲突感知范式,并作为统一幂族的特例加以囊括。

#### 知识冲突的评估  
现有基准沿不同轴评估知识冲突。NQ-Swap(Longpre et al., 2021 (https://arxiv.org/html/2606.10298#bib.bib11))和NQ-Synth(Wang et al., 2025 (https://arxiv.org/html/2606.10298#bib.bib20))都将冲突简化为单一忠实性轴:前者替换黄金实体以测试模型是否遵循上下文而非其参数答案,后者将上下文答案替换为模型自身输出作为上下文与先验一致的控制。ClashEval(Wu et al., 2024 (https://arxiv.org/html/2606.10298#bib.bib21))转向双向视角,分别测量偏向先验和偏向上下文的错误。存在两个空白:NQ-Swap和NQ-Synth完全忽略了修正状态;ClashEval虽然是双向的,但针对的是端到端LLM行为,而非隔离解码方法。此外,这三个基准都静态地分配冲突标签,而不考虑模型实际相信什么。我们的协议解决了这两个空白(第5节 (https://arxiv.org/html/2606.10298#S5))。

## 3 预备知识与泛化框架  

### 3.1 任务设定与符号  

给定查询 \(x\)、外部上下文 \(c\) 和步长 \(t\),我们考虑同一模型有无上下文时的分布:  

\[
p_{\text{pri},t}(\cdot) = p_\theta(\cdot \mid x, y_{<t}) \quad \text{和} \quad p_{\text{ctx},t}(\cdot) = p_\theta(\cdot \mid c, x, y_{<t})
\]

分别记为先验分布和上下文分布。目标是在每个解码步学习一个组合分布 \(q_t\),该分布以 \(p_{\text{pri},t}\) 和 \(p_{\text{ctx},t}\) 为输入,并以有利于正确生成的方式权衡它们。

### 3.2 现有对比解码方法  

现有方法可统一为以下形式:

- **CAD** (Shi et al., 2024 (https://arxiv.org/html/2606.10298#bib.bib18)): \(q_t \propto p_{\text{ctx},t}^{1+\alpha} \cdot p_{\text{pri},t}^{-\alpha}\),其中 \(\alpha > 0\)。
- **AdaCAD** (Wang et al., 2025 (https://arxiv.org/html/2606.10298#bib.bib20)): 与CAD形式相同,但 \(\alpha\) 替换为步进式 Jensen-Shannon 散度系数 \(\alpha_t^{\text{JSD}}\)。
- **COIECD** (Yuan et al., 2024 (https://arxiv.org/html/2606.10298#bib.bib24)): \(q_t \propto p_{\text{pri},t}^{1-\lambda_t} \cdot p_{\text{ctx},t}^{\lambda_t}\),其中 \(\lambda_t\) 在 \(\{\alpha, 1+\alpha\}\) 中二值选择。
- **CoCoA** (Khandelwal et al., 2025 (https://arxiv.org/html/2606.10298#bib.bib5)): \(q_t \propto p_{\text{pri},t}^{1-\lambda_t} \cdot p_{\text{ctx},t}^{\lambda_t + \gamma}\),其中 \(\lambda_t\) 为多信号门控输出,\(\gamma\) 为常数偏移。

### 3.3 统一的幂族  

我们观察到所有这些调整在logits空间中都对应一个单标量仿射组合,即一个幂族:

\[
q_{\tau,t}(y) \propto p_{\text{pri},t}(y)^{1-\tau} p_{\text{ctx},t}(y)^{\tau}, \quad \tau \in \mathbb{R}.
\]

该族在 \(\tau=1\) 处分为两个机制:\(\tau < 1\) 在先验与上下文之间进行**内插**,\(\tau > 1\) 通过**外推**超越上下文。当 \(\tau < 0\) 时也是外推,但变为偏向先验。统一公式如下:\(\tau = 0\) 完全恢复先验,\(\tau = 1\) 完全恢复上下文,\(\tau \in (0,1)\) 进行凸组合(内插),\(\tau < 0\) 或 \(\tau > 1\) 进行外推。具体地,\(\tau > 1\) 通过对先验施加负指数来外推超越上下文。第3.2节 (https://arxiv.org/html/2606.10298#S3.SS2) 中的四种方法都是特殊情形,仅在其 \(\tau\) 的选择上不同,每个都占据固定的单侧位置(图1 (https://arxiv.org/html/2606.10298#S1.F1),表1 (https://arxiv.org/html/2606.10298#S3.T1);扩展讨论和推导见附录A (https://arxiv.org/html/2606.10298#A1))。

| 方法 | 函数形式 | \(\tau\) | 机制 |
|------|----------|-----------|--------|
| CAD | \(p_{\text{ctx},t}^{1+\alpha} p_{\text{pri},t}^{-\alpha}\) | \(\tau = 1+\alpha\) | 外推 |
| AdaCAD | \(p_{\text{ctx},t}^{1+\alpha_t^{\text{JSD}}} p_{\text{pri},t}^{-\alpha_t^{\text{JSD}}}\) | \(\tau_t = 1+\alpha_t^{\text{JSD}}\) | 外推 |
| COIECD | \(p_{\text{pri},t}^{1-\lambda_t} p_{\text{ctx},t}^{\lambda_t}\) | \(\tau_t \in \{\alpha, 1+\alpha\}\) | 外推 |
| CoCoA* | \(p_{\text{pri},t}^{1-\lambda_t} p_{\text{ctx},t}^{\lambda_t}\) | \(\tau_t = \lambda_t + \gamma\) | 外推 |

表1:现有对比解码方法转化为统一幂族 \(q_{\tau,t}(y) \propto p_{\text{pri},t}(y)^{1-\tau} p_{\text{ctx},t}(y)^{\tau}\)。

## 4 机制结构与冲突不对称性  

### 4.1 内插 vs. 外推  

###### 定理1(内插作为KL约束最优解)。  
对于任意 \(\epsilon \in \bigl[0, \mathbb{D}_{\mathrm{KL}}(p_{\text{pri},t} \| p_{\text{ctx},t})\bigr]\),考虑约束优化问题:

\[
\min_{q \in \Delta(V)} \mathbb{D}_{\mathrm{KL}}\bigl(q \| p_{\text{pri},t}\bigr) \quad \text{s.t.} \quad \mathbb{D}_{\mathrm{KL}}\bigl(q \| p_{\text{ctx},t}\bigr) \leq \epsilon.
\]

该问题存在唯一最优解 \(q^\star\),其闭式解为:

\[
q^\star(y) = \frac{1}{Z_{\tau,t}} p_{\text{pri},t}(y)^{1-\tau} p_{\text{ctx},t}(y)^{\tau},
\]

其中 \(\tau \in [0,1]\) 与 \(\epsilon\) 单调一一对应。端点 \(\tau=0\) 和 \(\tau=1\) 分别恢复 \(p_{\text{pri},t}\) 和 \(p_{\text{ctx},t}\)。

###### 定理2(外推作为KL惩罚最优解)。  
对于任意 \(\eta \in [0,1)\),考虑惩罚优化问题:

\[
\min_{q \in \Delta(V)} \mathbb{D}_{\mathrm{KL}}\bigl(q \| p_{\text{ctx},t}\bigr) - \eta \mathbb{D}_{\mathrm{KL}}\bigl(q \| p_{\text{pri},t}\bigr).
\]

该问题存在唯一最优解 \(q^\star\),其闭式解为:

\[
q^\star(y) = \frac{1}{Z_{\tau,t}} p_{\text{pri},t}(y)^{1-\tau} p_{\text{ctx},t}(y)^{\tau},
\]

其中 \(\tau = \frac{1}{1-\eta} \in [1, +\infty)\) 与 \(\eta\) 单调一一对应。当 \(\eta=0\) 时,\(\tau=1\) 恢复 \(p_{\text{ctx},t}\);当 \(\eta \uparrow 1\) 时,\(\tau \to +\infty\)。此时指数 \(1-\tau\) 为负:目标主动将 \(q\) 推离 \(p_{\text{pri},t}\),同时保持其接近 \(p_{\text{ctx},t}\)。

这两个定理从数学上证明了为何幂族是正确的参数化形式,并揭示了每个机制的结构(附录B (https://arxiv.org/html/2606.10298#A2))。内插(\(\tau \in [0,1]\))产生**有界的信任重新分配**:\(q_{\tau,t}\) 是平衡先验接近性与上下文移动性的唯一最优解,其值始终介于 \(p_{\text{pri},t}\) 和 \(p_{\text{ctx},t}\) 之间。外推(\(\tau > 1\))超越 \(p_{\text{ctx},t}\) 并对**先验偏好的token施加负指数抑制**。两者在 \(\tau=1\) 处相遇,这是内插的极限(\(\epsilon \to 0\))和外推的起点(\(\eta \to 0\))。

### 4.2 机制不对称性  

###### 定义3(成对对数几率)。  
对于任意 \(a,b \in V\),幂族 \(q_{\tau,t}\) 下的成对对数几率定义为:

\[
\ell_{a,b}(\tau) := \log \frac{q_{\tau,t}(a)}{q_{\tau,t}(b)} = (1-\tau) \ell_{a,b}^{\text{pri}} + \tau \ell_{a,b}^{\text{ctx}},
\]

其中 \(\ell_{a,b}^{\text{pri}} = \log[p_{\text{pri},t}(a)/p_{\text{pri},t}(b)]\),\(\ell_{a,b}^{\text{ctx}} = \log[p_{\text{ctx},t}(a)/p_{\text{ctx},t}(b)]\)。

###### 命题4(成对反转阈值)。  
令 \(\Delta_{a,b} := \ell_{a,b}^{\text{ctx}} - \ell_{a,b}^{\text{pri}}\)。若 \(\Delta_{a,b} \neq 0\),则存在唯一的**成对反转阈值**:

\[
\tau_{a,b}^\star := -\frac{\ell_{a,b}^{\text{pri}}}{\Delta_{a,b}}
\]

使得 \(\ell_{a,b}(\tau_{a,b}^\star) = 0\)。当 \(\tau\) 穿过 \(\tau_{a,b}^\star\) 时,\(q_{\tau,t}\) 在 \(a\) 和 \(b\) 之间的偏好发生反转。若 \(\Delta_{a,b}=0\),则成对对数几率与 \(\tau\) 无关(因为 \(\ell_{a,b}(\tau) = \ell_{a,b}^{\text{pri}} = \ell_{a,b}^{\text{ctx}}\))。

相似文章

上下文-参数冲突的三种机制:预测框架与实证验证

arXiv cs.CL

本文提出了一个三机制框架,以解决大型语言模型(LLM)在处理训练知识与新文档之间冲突时出现的实证矛盾,并在五大主流模型上进行了验证。该框架区分了参数强度与参数唯一性,并展示了任务框架和证据连贯性如何显著影响模型行为。

No-Worse Context-Aware Decoding:在上下文条件生成中防止中性退化

arXiv cs.CL

本文提出了一种名为 NWCAD(No-Worse Context-Aware Decoding)的解码阶段适配器。该方法旨在防止“中性退化”问题,即大语言模型(LLM)在处理无信息量上下文时,错误覆盖原有正确答案。NWCAD 采用双流架构设计,并通过门控机制实现对无上下文解码的安全回退。

基于对比 LLM 微调对齐对话附和信号与语境表征

arXiv cs.CL

KTH Royal Institute of Technology 的研究人员提出了一种两阶段框架,通过在对话转写文本上微调 LLMs,并结合对比学习构建联合嵌入空间,以实现对对话附和信号与语境的精准对齐。结果表明,相较于以往方法,该方案显著提升了语境与附和信号的匹配检索性能。

更深并不总是更好:通过置信层解码缓解对齐损失

Hugging Face Daily Papers

本文介绍了一种无需训练的编码策略——Confident Decoding,它利用熵引导搜索动态选择LLM中最可靠的中间层,从而缓解对齐损失,并在GPQA-Diamond、Omni-MATH等基准测试中提升了推理性能,且开销可忽略不计。