大型语言模型中的句子级上下文夹带

arXiv cs.CL 2026/06/24 04:00 论文

摘要

本文将上下文夹带从标记级扩展到句子级，表明提示中的反事实句子在推理时也会增加其概率。该效应随模型规模增大而减弱，且由2-4%的注意力头驱动，这些注意力头可被消融而不影响性能。

arXiv:2606.24077v1 公告类型：新摘要：上下文夹带是大型语言模型（LLMs）中新发现的现象，指模型倾向于赋予其上下文中出现的标记更高的概率。在本工作中，我们通过检查句子中每标记的平均对数概率（而非单个标记的概率），将这一现象从标记级扩展到句子级。我们对来自七个系列和两个数据集的26个LLM进行了句子级上下文夹带的研究，这些数据集涵盖了主观和客观任务。我们发现句子级上下文夹带确实存在。这意味着提示中的句子（即使是反事实陈述）在模型推理时也能显著增加其概率。随着模型规模的增大，上下文夹带逐渐减弱。我们还发现，上下文夹带由2%到4%的注意力头控制。关闭这些注意力头可以有效缓解上下文夹带，而不会损害模型性能。

查看原文

查看缓存全文

缓存时间: 2026/06/24 07:44

# 大型语言模型中的句子级上下文夹带效应  
来源：https://arxiv.org/html/2606.24077  

###### 摘要  

上下文夹带效应（Contextual entrainment）是大型语言模型（LLM）中新发现的一种现象，指模型倾向于为出现在其上下文中的词元分配更高的概率。本研究将此现象从词元级扩展到句子级，通过考察句子中每个词元的平均对数概率而非单个词元的概率来进行分析。我们在七个系列的26个LLM以及两个数据集上研究了句子级上下文夹带效应，这两个数据集涵盖了主观任务和客观任务。我们发现句子级上下文夹带效应确实存在。这意味着提示中的句子（即使该句子是反事实陈述）在模型推理时其概率会显著增加。随着模型规模增大，上下文夹带效应逐渐减弱。我们还发现，上下文夹带效应由2%到4%的注意力头控制。关闭这些注意力头可以有效缓解上下文夹带效应，同时不损害模型性能。¹¹¹我们的代码可在以下网址获取：https://github.com/ku-nlp/Sentence-Level_Contextual_Entrainment_in_LLMs。  

## 1 引言  

大型语言模型（LLM）展现了卓越的上下文学习（ICL）能力，使其能够在无需任何参数更新的情况下有效利用提示中提供的上下文信息（Brown等人，2020）。由于其简单、灵活且具有出色的实证表现，ICL已成为众多自然语言处理任务的重要方法，涵盖从分类（Zhao等人，2021）、问答（Li等人，2023）、推理（Wei等人，2022）到代码生成（Chen等人，2021）等广泛领域。为了理解ICL的工作原理，Dai等人（2023）将其解释为隐式梯度下降，模型充当元优化器，从示例中生成元梯度。从回路的角度，这种能力被追溯到归纳头，它们通过从上下文中复制相关词元来完成模式，作为模型的响应（Olsson等人，2022；Crosbie和Shutova，2025）。这些研究主要解释了模型如何从提示中的上下文信息中获益；然而，模型如何误用提示中的上下文信息则相对较少被理解。  

最近，Niu等人（2025）发现了一个引人注目的现象，他们称之为*上下文夹带效应*：LLM系统地增加上下文中出现过的任何词元的概率，包括与后续查询无语义关联的词元。如图1(a)所示，给定上下文“巴黎是法国的一部分。”后跟查询“东京在哪个国家？”，下一个词元“法国”（来自上下文的词元）的概率比无上下文基线大幅上升，尽管正确的下一个词元是“日本”。通过可微分的掩码分析，Niu等人（2025）将此现象追溯到一小部分注意力头，并证明将其输出归零可以减少夹带效应。  

（a）词元级上下文夹带效应（Niu等人，2025）：在下一个词元位置，提示内的词元（如“法国”）获得较大概率提升。  

（b）句子级上下文夹带效应（本文）：在候选*完整句子*续写中，提示内的句子（“巴黎是法国的一部分。”）获得较大概率提升。  

图1：词元级和句子级上下文夹带效应的示例。  

然而，Niu等人（2025）的分析局限于词元级：它量化了模型预测的下一个词元位置处单个词元概率的增加。句子是LLM输入和输出中更常见的单位；因此我们将词元级上下文夹带效应扩展到句子级。如图1(b)所示，在相同的上述提示下，整个句子“巴黎是法国的一部分。”作为候选续写获得了较大的概率提升——尽管关于东京这一事实是不正确的——而正确答案“东京是日本的一部分。”的概率却降低了。  

我们的工作与先前研究（Niu等人，2025；Kukreja等人，2026）的主要不同点如下。首先，我们研究的是句子级而非词元级的上下文夹带效应，这种扩展更接近实际生成过程中信息累积的方式。其次，Niu等人（2025）报告了单个模型（Grattafiori等人，2024）的结果，而Kukreja等人（2026）的模型集合仅限于较旧的Cerebras-GPT（Dey等人，2023）和Pythia（Biderman等人，2023）系列，我们在七个系列的26个模型上进行了实验。第三，现有工作仅测量了事实回忆任务（如LRE，Hernandez等人，2024）上的夹带效应，而我们引入了主观任务WVS（Haerpfer等人，2022）作为第二个探测任务。第四，除了与单个关系相关的夹带头，我们还识别了一组所有关系共享的头。我们是第一个识别出跨关系泛化的头的。  

我们关注以下三个研究问题。  
**RQ1：** 上下文夹带效应现象是否也存在于句子级？我们在主观和客观任务中对此进行研究。  
**RQ2：** 上下文夹带效应如何随模型规模变化？由于LLM通过上下文表示来编码句子，其丰富度随模型容量缩放，句子级夹带效应可能随模型规模而变化。  
**RQ3：** LLM是否具有一小部分夹带头，可以通过关闭这些头来缓解上下文夹带效应而不损害任务性能？  

我们的主要贡献如下：  
1. 通过使用模型响应的每个词元平均对数概率来表示其概率，将词元级上下文夹带效应扩展到句子级（§2）。  
2. 将可微分的注意力头掩码扩展到句子级（§3）。  
3. 我们的实验表明，句子级上下文夹带效应存在；即使提示中的句子是与查询相关的反事实陈述，这种夹带效应仍然存在（§5.1）。  
4. 通过分析四个模型系列的不同规模，我们发现上下文夹带效应现象与模型规模有关：随着模型规模增大，上下文夹带效应逐渐减弱。相反，对未出现在上下文中的响应的干扰随模型规模增大而增加（§5.2）。  
5. 我们识别了一组稀疏的共享头：仅关闭2%到4%的注意力头即可有效缓解上下文夹带效应，同时不损害模型性能（§5.3）。  

## 2 背景与形式化  

### 2.1 符号说明  

设 \(\mathcal{M}\) 是一个以 \(\theta\) 为参数的 LLM，词汇表为 \(\mathcal{V}\)。对于任意词元序列 \(x\)，\(\mathcal{M}\) 产生 logits \(z = h_{\theta}(x)\)，我们将预测分布写为 \(\pi = \texttt{Softmax}(z)\)，其中 \(\log \pi(w \mid x)\) 表示分配给候选下一个词元 \(w \in \mathcal{V}\) 的对数概率。对于一个词元序列 \(y = (y_1, \dots, y_L)\)，模型在生成 \(y\) 时给定 \(x\) 之后的对数概率按链式法则分解：  

\[
\log \pi(y \mid x) = \sum_{i=1}^{L} \log \pi(y_i \mid x, y_{<i}).
\]  

我们使用每个词元的平均对数概率来规范化序列长度：  

\[
\bar{\log} \pi(y \mid x) = \frac{1}{L} \log \pi(y \mid x) = \frac{1}{L} \sum_{i=1}^{L} \log \pi(y_i \mid x, y_{<i}).
\]  

### 2.2 词元级上下文夹带效应  

设 \(c\) 为上下文词元序列，\(q\) 为查询词元序列。令 \(\mathcal{T}(c)\) 为出现在上下文 \(c\) 中的词元集合（即 \(\mathcal{T}(c) = \{ w \in \mathcal{V} \mid w \text{ 作为 } c \text{ 中的一个词元出现} \}\)）。Niu 等人（2025）确定的现象是，对于任何 \(w \in \mathcal{T}(c)\)，当提示从 \(q\) 扩展到 \(c, q\) 时，模型分配的对数概率平均增加。  

**假设 1（词元级上下文夹带效应）**。  

\[
\forall \, w \in \mathcal{T}(c): \quad \mathbb{E}[\Delta \log \pi(w \mid c, q)] > 0,
\]  

其中期望是对 \((c, q)\) 对的数据分布取的。这以对数概率形式重述了 Niu 等人（2025）的发现。原始定义是用概率表示的；在词元级比较时，两者等价。  

### 2.3 句子级上下文夹带效应  

现在我们将假设 1 从单个词元扩展到句子。设 \(y = (y_1, \dots, y_L) \in \mathcal{V}\) 是作为上下文 \(c\) 的一个连续子串出现的句子（因此对于每个 \(i\)，\(y_i \in \mathcal{T}(c)\)）。我们关注的量是当提示从 \(q\) 扩展到 \(c, q\) 时，模型作为续写生成 \(y\) 的对数概率如何变化。句子级的对数概率增加可以定义为：  

\[
\Delta \log \pi(y \mid c, q) := \log \pi(y \mid c, q) - \log \pi(y \mid q). \tag{5}
\]  

我们专注于响应 \(y\) 恰好是上下文 \(c\) 的情况，并研究在期望上，当上下文 \(c\) 拼接到查询 \(q\) 之前时，模型生成 \(y\) 的对数概率是否也会增加。  

将式 (1) 应用于式 (5) 中的每一项，然后相减：  

\[
\Delta \log \pi(y \mid c, q) = \sum_{i=1}^{L} [\log \pi(y_i \mid c, q, y_{<i}) - \log \pi(y_i \mid q, y_{<i})]. \tag{6}
\]  

**假设 2（句子级上下文夹带效应）**。  

\[
\mathbb{E}[\Delta \log \pi(y \mid c, q)] > 0. \tag{8}
\]  

###### 证明概要。  
由于 \(y\) 等于（或是 \(c\) 的子序列），每个词元 \(y_i\) 都属于 \(\mathcal{T}(c)\)。对于每个位置 \(i\)，将假设 1 应用于词元 \(w = y_i\) 和提示 \(p = c, q, y_{<i}\)，我们得到每个 \(i\) 有 \(\mathbb{E}[\Delta \log \pi(y_i \mid c, q, y_{<i})] > 0\)，即式 (6) 中的每个加项在期望上为正。将期望线性应用于式 (6) 得到：  

\[
\mathbb{E}[\Delta \log \pi(y \mid c, q)] = \sum_{i=1}^{L} \mathbb{E}[\Delta \log \pi(y_i \mid c, q, y_{<i})] > 0. \tag{9}
\]  

∎  

## 3 句子级夹带头发现  

遵循 Niu 等人（2025）的方法，我们通过可微分掩码（De Cao 等人，2020）来识别导致上下文夹带效应的注意力头。每个层 \(l\) 的每个注意力头 \(h\) 上连接一个可学习的 Gumbel-sigmoid 门 \(m_{l,h} \in \{0,1\}\)（Jang 等人，2017），用于缩放该头的输出；将 \(m_{l,h} = 0\) 会使该头对残差流的贡献乘以零。训练期间，门控计算为：  

\[
m_{l,h} = \mathbb{1}\!\left[ \sigma\!\left( \frac{\ell_{l,h} + g}{\tau} \right) > \frac{1}{2} \right], \tag{10}
\]  

其中 \(\sigma(x) = \frac{1}{1 + e^{-x}}\) 是 sigmoid 函数，\(g\) 是 Logistic 噪声，\(\tau \in (0, \infty)\) 是温度超参数，\(\mathbb{1}[\cdot]\) 是指示函数；梯度通过直通估计器（Bengio 等人，2013）绕过离散化。在推理时，我们确定性地设置 \(m_{l,h} = \mathbb{1}[\ell_{l,h} > 0]\)。  

在本节中，我们使用事实陈述作为上下文，记为 \(c\)。模型的无上下文自然响应为 \(r\)，评估 \(c\) 和 \(r\) 在相同的有上下文提示下：  

\[
\bar{\mathcal{L}}_c = \frac{1}{|c|} \sum_{i=1}^{|c|} \log \pi(c_i \mid c, q, c_{<i}), \quad \bar{\mathcal{L}}_r = \frac{1}{|r|} \sum_{i=1}^{|r|} \log \pi(r_i \mid c, q, r_{<i}),
\]  

以及无上下文损失 \(\bar{\mathcal{L}}_c^{\text{no-context}} = \frac{1}{|c|} \sum_{i=1}^{|c|} \log \pi(c_i \mid q, c_{<i})\) 和 \(\bar{\mathcal{L}}_r^{\text{no-context}} = \frac{1}{|r|} \sum_{i=1}^{|r|} \log \pi(r_i \mid q, r_{<i})\)。  

（角色标记符 \(\# \text{Context}, \# \text{Query}, \# \text{Response}\) 仅为示意，并非实际提示的一部分。查询是一个提问关系实例目标的问题，模型需要生成答案作为响应。我们使用两种类型的上下文。上下文是用固定句子模板表达的关系陈述。我们为每个查询构建两种关系陈述：事实陈述和反事实陈述。事实陈述来自与查询相同的关系，但其源和目标与查询不同；例如，当查询是“东京在哪个国家？”时，上下文可以是“巴黎是法国的一部分。”反事实陈述保留查询的源但将目标替换为错误的，例如“东京是法国的一部分。”  

对于WVS数据集，提示如下：  

\[
\# \text{Context} \\
\text{我会提到移民或外国工人，因为我希望邻居分享我的语言、习俗和生活方式，这样日常接触感觉更轻松、压力更小。} \\
\# \text{Query} \\
\text{家庭在你的生活中有多重要？} \\
\# \text{Response}
\]  

查询 \(q\) 是询问受访者的意见，例如“家庭在你的生活中有多重要？”上下文是一个用于回答查询 \(q'\) 的意见陈述；该意见陈述要么是支持陈述，要么是反对陈述（针对查询 \(q'\)）。上下文也可以被移除，以获得无上下文基线。  

#### 响应类别  

为了系统地描述上下文 \(c\) 对模型生成的影响，我们将每个查询 \(q\) 的评估响应 \(r\) 分为三类：  

- •**上下文响应**：响应与上下文相同（\(r=c\)）；即模型需要重现已出现在提示中的句子；  
- •**正确响应**：响应是查询 \(q\) 的正确答案，且不等于上下文（\(r \neq c\) 且 \(r = \text{正确}\)）；⁴⁴⁴在我们的工作中，上下文永远不会是正确答案。  
- •**错误响应**：响应既不等于上下文，也不是正确答案（\(r \neq c\) 且 \(r \neq \text{正确}\)）。  

正确响应的确切形式取决于数据集。对于 LRE，它包括查询的金标准响应以及模型自身产生的无上下文自然响应。对于 WVS，它包括与查询匹配的支持或反对陈述以及模型自身产生的无上下文自然响应。错误响应的确切形式也取决于数据集。对于 LRE，它是未用作上下文的那一对（事实陈述，反事实陈述）中的另一个。对于 WVS，它是未用作上下文的那一对（支持陈述，反对陈述）中的另一个。  

### 4.3 指标  

#### 上下文夹带效应  

我们度量这种效应为模型响应是句子 \(s\) 的对数概率之差，在两种提示条件下：一种提示是上下文 \(c\)（与句子 \(s\) 相同）后接查询 \(q\)，另一种提示仅由查询 \(q\) 组成。形式上，  

\[
\mathcal{E}(c \mid c, q) = \frac{1}{|c|} \sum_{i=1}^{|c|} \log \pi(c_i \mid c, q, c_{<i}) - \frac{1}{|c|} \sum_{i=1}^{|c|} \log \pi(c_i \mid q, c_{<i}).
\]  

（由于响应 \(r\) 在句子级上下文夹带效应中未直接使用，我们仅在上方指标中显示 \(c\)。）

大型语言模型中的句子级上下文夹带

相似文章

强化学习激发对未见语言的语境翻译学习

EndPrompt: 通过终端锚定实现高效长上下文扩展

LLM蕴含多样性：部署环境如何重塑模型层面的偏好与价值观

从上下文偏移到风格崩塌：为什么训练目标比规模更重要

大语言模型的维度级意图保真度评估：来自结构化提示消融的证据

提交意见反馈