SHIFT：面向检索增强生成中知识冲突缓解的门控调制激活引导

arXiv cs.CL 2026/06/29 04:00 论文

摘要

介绍了SHIFT框架，该框架利用可学习的门控调制自适应地引导大语言模型的内部激活，以不到0.01%的可训练参数缓解检索增强生成中的知识冲突。

arXiv:2606.27786v1 公告类型：新摘要：检索增强生成通过引入外部知识来增强大语言模型，以支持响应生成。然而，检索到的上下文与参数化知识之间的冲突已成为检索增强生成系统中的关键挑战。为缓解此类冲突，大量研究尝试识别和编辑与知识相关的内部神经元，旨在提高大语言模型在生成过程中依赖上下文证据的能力。然而，这些神经元级方法可能引入意外的级联效应，损害大语言模型的通用能力，因为所修改的神经元通常与更广泛的模型行为和功能纠缠在一起。本文中，我们提出SHIFT，一种新颖的框架，将神经元级修改重构为可学习的门控调制，使大语言模型能够自适应地调控内部激活以解决知识冲突。技术上，我们的SHIFT为大语言模型配备轻量级门控模块，在保持骨干模型冻结的同时优化少于0.01%的可训练参数。在生成过程中，门控模块调整模型的内部表示，以自适应地利用上下文和参数化知识。在六个数据集上的大量实验验证了我们的SHIFT相较于各种竞争基线的有效性。所有数据集和代码可在 https://github.com/OpenBMB/SHIFT 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:24

# Shift: 门控调制激活导向方法用于缓解检索增强生成中的知识冲突

**来源**: https://arxiv.org/html/2606.27786

Ruochang Li♡\heartsuit∗, Pengcheng Huang♡\heartsuit∗, Zhenghao Liu♡\heartsuit†, Yukun Yan♠ Huiyuan Xie♠,Yu Gu♡\heartsuit,Ge Yu♡\heartsuit,Maosong Sun♠

♡\heartsuit东北大学计算机科学与工程学院，中国沈阳 ♠清华大学计算机科学与技术系，中国北京

###### 摘要

检索增强生成（RAG）通过引入外部知识来支持响应生成，从而增强了大语言模型（LLM）。然而，检索到的上下文与参数化知识之间的冲突已成为RAG系统面临的关键挑战。为了缓解此类冲突，大量研究尝试识别并编辑与知识相关的内部神经元，旨在提升LLM在生成过程中依赖上下文证据的能力。然而，这些神经元级别的方法可能会引入意外的级联效应，损害LLM的通用能力，因为被修改的神经元往往与更广泛的模型行为和功能纠缠在一起。在本文中，我们介绍了Shift，一种新颖的框架，它将神经元级别的修改重新表述为可学习的门控调制，使LLM能够自适应地调节内部激活以解决知识冲突。从技术上讲，我们的Shift为LLM配备了一个轻量级门控模块，仅优化不到0.01%的可训练参数，同时保持骨干模型冻结。在生成过程中，门控模块调整模型的内部表示，以自适应地利用上下文知识和参数化知识。在六个数据集上进行的大量实验验证了Shift相对于各种竞争基线的有效性。所有数据集和代码可在https://github.com/OpenBMB/SHIFT获取。

---

## 1 引言

检索增强生成（RAG）已成为通过将生成过程锚定于外部证据来提高大语言模型（LLM）事实可靠性的关键范式 [Guu等, 2020 (https://arxiv.org/html/2606.27786#bib.bib87)]; [Lewis等, 2020 (https://arxiv.org/html/2606.27786#bib.bib3)]; [Izacard和Grave, 2021 (https://arxiv.org/html/2606.27786#bib.bib160)]。通过在生成过程中融入检索到的上下文，RAG使LLM能够访问预训练期间编码的静态参数化知识之外的最新和领域特定信息 [Izacard等, 2023 (https://arxiv.org/html/2606.27786#bib.bib135)]; [Mallen等, 2023 (https://arxiv.org/html/2606.27786#bib.bib108)]。

**图1**: 缓解知识冲突的三种范式比较。(a) 神经元级别干预需要细粒度定位知识相关神经元。(b) 层级干预在选定层上使用固定规则。(c) Shift引入轻量级门控以主动调节隐藏状态激活。

因此，RAG系统在推理过程中依赖两种知识来源：**参数化知识**（编码在模型参数中）和**上下文知识**（由检索到的文档提供）。当这两种来源相互矛盾时，就会产生**知识冲突** [Xie等, 2024 (https://arxiv.org/html/2606.27786#bib.bib19)]，在这种情况下，LLM可能会忽略检索到的证据 [Zhang等, 2025b (https://arxiv.org/html/2606.27786#bib.bib39)]，过度依赖参数化知识 [Huang等, 2025b (https://arxiv.org/html/2606.27786#bib.bib58)]，或在生成过程中不一致地混合这两种知识来源 [Choi等, 2025 (https://arxiv.org/html/2606.27786#bib.bib96)]。这些失败模式损害了RAG系统的事实可靠性 [Sun等, 2025 (https://arxiv.org/html/2606.27786#bib.bib4)]，因此缓解知识冲突成为可信检索增强生成的关键问题。

为了缓解此类冲突，一个关键问题是如何在参数化知识与检索到的上下文知识相互矛盾时平衡二者 [Longpre等, 2021 (https://arxiv.org/html/2606.27786#bib.bib90)]; [Chen等, 2022 (https://arxiv.org/html/2606.27786#bib.bib21)]。先前的工作通过定位知识相关的神经元或组件并直接对其进行干预来解决这一问题，例如知识编辑和知识神经元分析 [Hoelscher-Obermaier等, 2023 (https://arxiv.org/html/2606.27786#bib.bib132)]; [Cohen等, 2024 (https://arxiv.org/html/2606.27786#bib.bib151)]; [Niu等, 2024 (https://arxiv.org/html/2606.27786#bib.bib133)]。然而，LLM中的知识通常由局部化的知识神经元稀疏表示，这使得细粒度定位变得困难且脆弱 [Dai等, 2022a (https://arxiv.org/html/2606.27786#bib.bib57)]。因此，近期的研究转向更粗粒度的层级干预，例如选择知识关键层和前馈网络 [Shi等, 2024a (https://arxiv.org/html/2606.27786#bib.bib155)]; [Huang等, 2025b (https://arxiv.org/html/2606.27786#bib.bib58)]。尽管更实用，但这些方法通常使用固定干预规则作用于选定层，限制了它们在不同冲突实例中的灵活性，并可能损害模型的通用能力 [Gu等, 2024 (https://arxiv.org/html/2606.27786#bib.bib150)]。

**图2**: 提出的Shift框架概览。工作流程包括两个阶段：(1) 门控调制激活导向，使冻结的LLM能够选择性地调整其内部表示；(2) 基于强化学习的优化，引导模型在知识冲突下进行忠实生成。

在本文中，我们提出Shift（前馈网络上的选择性隐藏状态干预），一种受神经元级别和层级干预范式局限性启发的轻量级门控调制框架。如图1 (https://arxiv.org/html/2606.27786#S1.F1) 所示，Shift不直接修改知识相关神经元或对选定层应用固定规则，而是保持骨干LLM冻结，并使用可训练、依赖输入的门控来调节隐藏状态激活，从而避免脆弱的细粒度定位，同时在不同冲突实例之间实现灵活干预。门控模块通过组相对策略优化（GRPO）[Guo等, 2025 (https://arxiv.org/html/2606.27786#bib.bib63)] 进行优化，以主动调节内部激活，使模型能够更好地在上下文知识和参数化知识之间进行仲裁。通过训练少于0.01%的参数，Shift提供了一种微创方式，在冲突下改善自适应知识仲裁，同时保留骨干模型的通用能力。

我们的贡献可总结如下：
1. ❶ 我们提出Shift，一种微创门控调制框架，通过动态控制内部激活缓解RAG中的知识冲突，无需修改骨干LLM。
2. ❷ 我们提出一种通过GRPO优化的、依赖输入的门控调制机制，自适应地平衡上下文知识和参数化知识，同时使用少于0.01%的可训练参数。
3. ❸ 我们进行了大量实验，证明Shift在缓解知识冲突方面一致优于强基线，同时更好地保留了模型的通用能力。

## 2 相关工作

关于检索增强生成的现有工作已广泛研究了当检索到的证据与模型的参数记忆相矛盾时如何缓解知识冲突 [Longpre等, 2022 (https://arxiv.org/html/2606.27786#bib.bib45)]; [Wang等, 2025b (https://arxiv.org/html/2606.27786#bib.bib88)]。一条研究路线专注于通过提示策略和知识精炼来调节LLM对检索证据的依赖。例如，基于提示的方法通过精心设计的指令鼓励模型优先考虑检索到的证据 [Zhou等, 2023 (https://arxiv.org/html/2606.27786#bib.bib77)]，或通过对比有/无上下文信息的预测来引导生成 [Shi等, 2024b (https://arxiv.org/html/2606.27786#bib.bib144)]。其他方法通过提取显著信息并将证据整合为输入上下文来改进上下文利用，更好地支持LLM生成 [Zhao等, 2024 (https://arxiv.org/html/2606.27786#bib.bib161)]; [Chang等, 2025 (https://arxiv.org/html/2606.27786#bib.bib169)]。尽管有效，这些方法在知识冲突下仍难以可靠地迫使LLM覆盖冲突的参数化知识 [Xie等, 2024 (https://arxiv.org/html/2606.27786#bib.bib19)]，且常常未能充分利用检索上下文中所包含的知识。

为了解决这个问题，另一条工作路线训练或微调模型，以在外部证据与参数化知识冲突时调节对外部证据的依赖。这些方法旨在将遵循上下文的偏好直接编码到模型中 [Ouyang等, 2022 (https://arxiv.org/html/2606.27786#bib.bib165)]。例如，Context-DPO [Bi等, 2025a (https://arxiv.org/html/2606.27786#bib.bib154)] 采用直接偏好优化来鼓励对上下文的忠实响应而非固执响应，而RA-DIT [Lin等, 2024 (https://arxiv.org/html/2606.27786#bib.bib174)] 则进一步构建大规模指令微调数据，以提升LLM有效利用外部证据的能力。然而，此类基于微调的方法仍不清楚哪些内部机制控制模型是否遵循检索到的证据 [Geva等, 2021 (https://arxiv.org/html/2606.27786#bib.bib107)]。此外，它们在微调过程中容易发生灾难性遗忘 [Luo等, 2023 (https://arxiv.org/html/2606.27786#bib.bib175)]。

为了避免完全微调，先前的研究尝试在LLM的不同内部结构中定位事实知识，涵盖单个神经元、前馈网络（FFN）、注意力头和跨层信息流，旨在实现目标知识编辑 [Geva等, 2021 (https://arxiv.org/html/2606.27786#bib.bib107)]; [Meng等, 2023 (https://arxiv.org/html/2606.27786#bib.bib136)]; [Dai等, 2022b (https://arxiv.org/html/2606.27786#bib.bib164)]; [Geva等, 2023b (https://arxiv.org/html/2606.27786#bib.bib162)]; [Yu等, 2023 (https://arxiv.org/html/2606.27786#bib.bib163)]; [Shi等, 2024a (https://arxiv.org/html/2606.27786#bib.bib155)]。然而，精确定位此类知识仍具有挑战性 [Geva等, 2023a (https://arxiv.org/html/2606.27786#bib.bib110)]; [Chen等, 2024 (https://arxiv.org/html/2606.27786#bib.bib109)]，且由此产生的干预往往计算成本高且脆弱 [Hoelscher-Obermaier等, 2023 (https://arxiv.org/html/2606.27786#bib.bib132)]; [Cohen等, 2024 (https://arxiv.org/html/2606.27786#bib.bib151)]; [Niu等, 2024 (https://arxiv.org/html/2606.27786#bib.bib133)]。因此，近期工作已转向对注意力头和FFN模块进行更粗粒度的干预。例如，PH3 [Jin等, 2024 (https://arxiv.org/html/2606.27786#bib.bib10)]、RHIO [Huang等, 2025a (https://arxiv.org/html/2606.27786#bib.bib168)] 和JuICE [Li等, 2025a (https://arxiv.org/html/2606.27786#bib.bib167)] 通过头级剪枝、对比解码或测试时干预来调节模型行为，而ROME [Meng等, 2023 (https://arxiv.org/html/2606.27786#bib.bib136)] 和ParamMute [Huang等, 2025b (https://arxiv.org/html/2606.27786#bib.bib58)] 则直接编辑或抑制基于FFN的事实关联。尽管有效，大多数现有方法仍依赖固定干预方案，例如离线选择的组件、静态剪枝规则或预定义的抑制系数 [Hase等, 2023 (https://arxiv.org/html/2606.27786#bib.bib111)]。此类静态策略可能会无意中损害模型的通用能力 [Gu等, 2024 (https://arxiv.org/html/2606.27786#bib.bib150)]; [Li等, 2024 (https://arxiv.org/html/2606.27786#bib.bib112)]。相比之下，Shift引入了一种输入自适应的内部调节框架，用于缓解知识冲突，而无需修改底层LLM的参数。

## 3 方法论

我们现在介绍提出的选择性前馈网络隐藏状态干预（Shift），如图2 (https://arxiv.org/html/2606.27786#S1.F2) 所示。首先，Shift为LLM配备轻量级门控模块，以自适应地调节内部激活（第3.2节 (https://arxiv.org/html/2606.27786#S3.SS2)）。其次，Shift通过GRPO优化这些门控，使模型能够调整其内部表示，在生成过程中更好地平衡上下文证据与参数化知识（第3.3节 (https://arxiv.org/html/2606.27786#S3.SS3)）。

### 3.1 RAG中知识冲突的问题形式化

我们考虑检索增强生成设置，其中每个实例包含一个查询 \(q_i\) 和一个检索到的上下文 \(c_i\)。输入提示构建为 \(x_i = \mathcal{T}(q_i, c_i)\)，其中 \(\mathcal{T}(\cdot)\) 表示提示模板，对应的目标答案为 \(a_i\)。设 \(\pi_\theta\) 为一个具有 \(L\) 个Transformer层的冻结大语言模型。我们引入轻量级门控参数 \(\psi = \{(\mathbf{w}_l, b_l)\}_{l=1}^L\)，其中每一对参数化一个插入到第 \(l\) 层FFN分支中的门控。所有骨干参数保持固定，仅 \(\psi\) 可学习。由此产生的门控模型记为 \(\pi_\psi\)。我们的目标是学习 \(\psi\)，使得 \(\pi_\psi\) 能够在回答 \(q_i\) 时，在检索到的上下文 \(c_i\) 与模型的参数化知识之间潜在的知识冲突下生成忠实的答案。

### 3.2 门控调制激活导向

为了在知识冲突下实现自适应调节，Shift为FFN分支配备轻量级可学习门控，自适应地调节其对残差流的贡献 [Geva等, 2021 (https://arxiv.org/html/2606.27786#bib.bib107)]; [Dai等, 2022b (https://arxiv.org/html/2606.27786#bib.bib164)]。具体来说，在标准Transformer层中，FFN分支更新隐藏状态如下：

\[
\mathbf{h}_{l,t} = \tilde{\mathbf{h}}_{l,t} + \mathrm{FFN}_l\!\left(\mathrm{LN}(\tilde{\mathbf{h}}_{l,t})\right), \tag{1}
\]

其中 \(\tilde{\mathbf{h}}_{l,t}\) 表示第 \(l\) 层FFN分支之前、标记位置 \(t\) 处的隐藏状态，\(\mathrm{LN}(\cdot)\) 表示层归一化。为使FFN贡献输入自适应，门控模块 \(\psi_l = \{\mathbf{w}_l, b_l\}\) 包含可学习参数，用于为每个标记计算标量调制值：

\[
g_{l,t} = \lambda_g \cdot \sigma\!\left(\mathbf{w}_l^\top \tilde{\mathbf{h}}_{l,t} + b_l\right), \tag{2}
\]

其中 \(\sigma(\cdot)\) 为sigmoid函数，\(\lambda_g\) 控制调制范围。因此，\(g_{l,t} \in (0, \lambda_g)\)。

SHIFT：面向检索增强生成中知识冲突缓解的门控调制激活引导

相似文章

提示-激活对偶性：通过注意力层干预改进激活引导

从上下文感知到冲突感知：将对比解码推广到LLM中的知识冲突

面向高效可控LLM推理的代理式思维链引导

AdaGATE：面向多跳检索增强生成的自适应间隙感知、令牌高效证据集成

流形引导注意力转向

提交意见反馈