当正确示例有害：重新思考语境学习中示例的作用

arXiv cs.LG 2026/05/27 04:00 论文

in-context-learning icl exemplars demonstrations llm language-models interpretability

摘要

本文揭示了一个反直觉的现象：语境学习中的正确示例反而可能降低模型准确率，并引入任务保持扰动来研究示例正确性与实用性之间的差距。

arXiv:2605.26350v1 Announce Type: new Abstract: 语境学习（ICL）通常基于这样一个直觉：示例之所以有帮助，是因为它们提供了正确的输入-输出样例。然而，我们揭示了一个反直觉的现象：正确性并不能保证示例的实用性，某些正确示例甚至会降低ICL的准确率。为了研究这种正确性-实用性差距，我们引入了任务保持扰动，在这种扰动下，仅改变示例的输入，而该示例仍然是同一任务的正确实例。具体来说，每个被扰动的示例都被分配了由任务映射所诱导的目标。该框架涵盖了两种扰动：标签更新扰动（任务相关语义发生变化，目标被重新计算）和更严格的目标保持扰动（原始目标仍然有效）。我们将由此产生的失败模式形式化为上下文证据偏移：任务保持扰动可以改变模型用于上下文推理的有效证据组合，从而将示例的正确性与实用性分离。在情感分类、逻辑推理和数学应用题上，我们发现任务保持扰动的示例会显著降低ICL的性能，尤其是在模型较小、任务较难和扰动比例较高的情况下。我们的结果表明，鲁棒的ICL不仅需要评估示例是否正确，还需要评估它们如何影响上下文推理。代码可在 https://github.com/Chenghao-Qiu/Task-Preserving-ICL 获取。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:09

# 当正确示例反而有害：重新思考示例在上下文学习中的作用  
来源：https://arxiv.org/html/2605.26350  

陈浩邱 · 彭春丽 · 杨宇峰  
chenghaoqiu@tamu\.edu · chunli\.peng@tamu\.edu · ynyang94@tamu\.edu  

黄冠豪 · 周毅  
khhuang@tamu\.edu · yi\.zhou@tamu\.edu  

得克萨斯农工大学  

###### 摘要  
上下文学习（ICL）通常基于这样一个直觉：示例之所以有帮助，是因为它们提供了正确的输入-输出对。然而，我们揭示了一个反直觉的现象：正确性并不能保证示例的有效性，某些正确示例甚至会降低 ICL 的准确率。为了研究这种正确性-效用差距，我们引入了任务保持扰动（task preserving perturbations），其中仅修改示例输入，而示例仍然是同一任务下的正确实例。具体来说，每个被扰动的示例被赋予由任务映射决定的目标。这一框架涵盖了两种情况：标签更新扰动（任务相关语义改变，目标重新计算）以及更严格的目标保持扰动（原始目标仍然有效）。我们将由此产生的失效模式形式化为上下文证据偏移（contextual evidence shift）：任务保持扰动会改变模型用于上下文推断的有效证据组合，从而将示例正确性与示例效用分离。在情感分类、逻辑推理和数学应用题任务上，我们发现任务保持扰动的示例会显著降低 ICL 性能，尤其对于较小模型、较难任务以及较高扰动比例。我们的结果表明，鲁棒的 ICL 不仅需要评估示例是否正确，还需要评估它们如何影响上下文推断。代码可在 https://github.com/Chenghao-Qiu/Task-Preserving-ICL 获取。  

## 1 引言  
参见图注  
图 1：任务保持示例扰动概览。  
我们研究了（1）情感分析、（2）逻辑推理和（3）数学应用题中的任务保持示例扰动。上方：在扰动比例 ρ 下的示例构建过程，其中按比例 ρ 随机选择示例进行扰动，其余示例保持不变。绿色表示原始示例，橙色表示扰动后的示例，红色突出显示被修改的输入词元。下方：任务保持扰动及其对上下文学习影响的示意图。灰色面板展示了不同任务下的具体任务保持实例。尽管保留了任务映射，但扰动后的示例可能改变上下文证据，导致模型预测错误。  

上下文学习（ICL）使大语言模型（LLM）能够通过在提示中附上少量输入-输出示例来适应新任务，而无需更新模型参数（Brown et al., 2020 (https://arxiv.org/html/2605.26350#bib.bib15)）。一个常见的直觉是，示例之所以有帮助，是因为它们提供了正确的例子：每个示例输入都与目标任务映射所决定的输出配对。然而，先前的分析表明，示例不仅规定了映射关系（Min et al., 2022 (https://arxiv.org/html/2605.26350#bib.bib16)），还传达了标签空间（Wei et al., 2023 (https://arxiv.org/html/2605.26350#bib.bib1)）、输入分布（Zhou et al., 2023 (https://arxiv.org/html/2605.26350#bib.bib12)）和提示格式。其有效性进一步依赖于示例顺序（Lu et al., 2022 (https://arxiv.org/html/2605.26350#bib.bib10)）、选择策略（Liu et al., 2022 (https://arxiv.org/html/2605.26350#bib.bib11)）和检索质量（Rubin et al., 2022 (https://arxiv.org/html/2605.26350#bib.bib33)）。这些发现表明，示例通过超出输入-输出映射的多种因素影响 ICL，但它们并未直接检验任务正确的示例是否可能变得有害。这引出了一个更基本的问题：当示例正确时，在什么条件下它才能真正起到帮助作用？  
在本工作中，我们认为**示例正确性并不等同于示例效用**。一个示例在任务定义下可以是个体有效的，但作为上下文证据时却可能有害。例如，对于情感分类任务，示例“我不能说这部电影很棒”→负面是正确且有效的。然而，当它作为上下文示例与查询“我可以说这是一个美丽的地方”一起使用时，可能无法提供有用的证据，甚至引入误导性的上下文证据，使模型偏离预期的预测。危害并非来自标签不正确，而是来自示例输入范围与目标查询分布之间的不匹配，这种不匹配会改变模型推断出的决策上下文。这一区别很重要，因为 ICL 流程通常从正确的候选示例开始，但示例正确性是输入-输出对的局部属性，而示例效用则是上下文相关的：它取决于示例如何与其他示例以及目标查询分布相互作用。模型并非单独利用每个示例，而是使用整个示例集来推断潜在任务、输入范围和决策规则。在这种观点下，正确的示例可能仍然支持相互竞争的上下文假设：它们可能保留相同的任务映射，但在表面形式或输入分布上发生足够的变化，从而改变模型行为。现有研究并未完全隔离这种正确性-效用差距。标签空间扰动研究测试模型是否能从上下文中学习新的映射（Wei et al., 2023 (https://arxiv.org/html/2605.26350#bib.bib1)；Shi et al., 2024 (https://arxiv.org/html/2605.26350#bib.bib2)），但有意改变了示例携带的监督信号。输入空间对抗性研究表明，示例构成了有效的攻击面（Wang et al., 2023 (https://arxiv.org/html/2605.26350#bib.bib13)；Zhou et al., 2023 (https://arxiv.org/html/2605.26350#bib.bib12)），但它们通常将模型导向攻击者选择的输出，甚至改变任务相关语义而保留原始标签（Chu et al., 2026 (https://arxiv.org/html/2605.26350#bib.bib14)）。因此，先前的工作往往混淆了“示例是否仍对任务保持正确”与“当示例输入以不同方式表达时，正确示例是否仍有用”这两个问题。  
为了隔离示例正确性与示例效用之间的区别，我们提出了**任务保持扰动**（task preserving perturbations），作为一种受控的输入侧干预措施，应用于上下文示例。图 1 (https://arxiv.org/html/2605.26350#S1.F1) 提供了在扰动比例 ρ 下示例构建过程的示意图，并说明了任务保持扰动如何影响下游预测。所谓任务保持，是指我们仅修改选中的示例输入，同时保持输出空间、任务映射和示例顺序不变。每个变换后的示例被配以同一任务映射所决定的目标。该框架涵盖两种情形：标签更新扰动，即任务相关语义改变且目标被重新计算；以及更严格的目标保持扰动，即原始标签或答案仍然有效。通过这种方式，扰动仍然保持任务正确，同时改变了模型可用的上下文证据。  
在情感分类、逻辑推理和数学应用题任务上，我们发现任务保持扰动的示例会显著降低 ICL 性能，尤其对于较小模型、较难任务以及较大扰动比例。在 SST-2 上，将干净示例替换为任务保持替代方案会持续降低不同模型系列和规模下的准确率，在某些情况下甚至比零样本提示更差。进一步的对照实验和匹配分布评估表明，性能下降反映的是上下文证据的偏移，而非通用的任务识别失败或无法解读扰动输入。基于原始扰动相似度、示例位置和注意力分配的额外分析进一步支持了如下观点：正确示例可能通过改变用于上下文推断的证据组合而变得有害。我们将贡献总结如下：  

- • 我们识别出 ICL 中的正确性-效用差距：示例在相同任务映射下保持有效的同时，仍可能降低下游性能。  
- • 方法上，我们引入了任务保持扰动，这是一种受控的输入侧干预，仅修改示例输入而保留任务映射。我们将这种效应形式化为上下文证据偏移，展示了此类扰动如何改变用于上下文推断的有效证据组合。  
- • 跨多个任务、模型系列和模型规模的广泛实验表明，任务保持扰动的示例会显著降低 ICL 性能。额外的分析进一步支持上下文证据偏移作为这种失效的解释。  

## 2 相关工作  

### 2.1 上下文学习  
随着大语言模型（LLM）成为通用基础模型（Achiam et al., 2023 (https://arxiv.org/html/2605.26350#bib.bib3)；Guo et al., 2025 (https://arxiv.org/html/2605.26350#bib.bib4)；Chen et al., 2021 (https://arxiv.org/html/2605.26350#bib.bib5)；Roziere et al., 2023 (https://arxiv.org/html/2605.26350#bib.bib6)），上下文学习（ICL）已成为一项核心能力：模型可以通过在提示中附上少量示例来执行任务，无需任何参数更新（Brown et al., 2020 (https://arxiv.org/html/2605.26350#bib.bib15)）。早期关于 ICL 的研究（Min et al., 2022 (https://arxiv.org/html/2605.26350#bib.bib16)）主要关注示例所传达的信息。沿着这条路径，Wei et al. (2023 (https://arxiv.org/html/2605.26350#bib.bib1)) 使用标签扰动表明，较大模型可以从上下文中推断出新的任务映射。Shi et al. (2024 (https://arxiv.org/html/2605.26350#bib.bib2)) 进一步将这种规模效应归因于较大模型使用更广泛特征集的能力。与此同时，输入侧扰动研究（Wang et al., 2023 (https://arxiv.org/html/2605.26350#bib.bib13)）表明，对抗性扰动的示例可以显著改变模型预测。Zhou et al. (2023 (https://arxiv.org/html/2605.26350#bib.bib12)) 和 Chu et al. (2026 (https://arxiv.org/html/2605.26350#bib.bib14)) 进一步研究了恶意或预算受限的示例操控如何劫持 ICL 行为。这些工作揭示了 ICL 对示例级别干预的高度敏感性。  
一条理论工作路线将 ICL 视为 Transformer 前向传播中的隐式优化，其中示例充当训练样本，使模型能够在上下文中学得函数类（Garg et al., 2022 (https://arxiv.org/html/2605.26350#bib.bib17)）或近似学习算法，包括类似梯度下降的更新（Von Oswald et al., 2023 (https://arxiv.org/html/2605.26350#bib.bib19)；Ahn et al., 2023 (https://arxiv.org/html/2605.26350#bib.bib20)）、岭回归（Akyürek et al., 2023 (https://arxiv.org/html/2605.26350#bib.bib18)）以及更一般的上下文算法选择形式（Bai et al., 2023 (https://arxiv.org/html/2605.26350#bib.bib21)）。第二条路线从核方法或贝叶斯推断角度解释 ICL。Han et al. (2025 (https://arxiv.org/html/2605.26350#bib.bib22)) 表明 ICL 表现出类似核回归的行为，而 Panwar et al. (2024 (https://arxiv.org/html/2605.26350#bib.bib23)) 表明大容量 Transformer 可以像贝叶斯预测器一样对潜在任务进行推断。Raventós et al. (2023 (https://arxiv.org/html/2605.26350#bib.bib24)) 进一步表明，预训练任务多样性会调节这种行为，使模型从有限多样性下的类贝叶斯估计器转向更大多样性下的岭回归型预测器。  

### 2.2 示例选择  
越来越多的工作研究为什么某些示例在 ICL 中比另一些更有效。Lu et al. (2022 (https://arxiv.org/html/2605.26350#bib.bib10)) 表明上下文示例的顺序会显著影响模型预测。Liu et al. (2022 (https://arxiv.org/html/2605.26350#bib.bib11)) 利用基于相似度的选择来识别更匹配测试查询的示例，而基于检索的提示（Rubin et al., 2022 (https://arxiv.org/html/2605.26350#bib.bib33)）则学习检索有用的示例用于下游预测。除了相似度，选择性标注和主动选择方法表明，代表性、多样性或对模型信息量大的示例可以带来比随机选择示例更强的少样本性能（Su et al., 2023 (https://arxiv.org/html/2605.26350#bib.bib35)；Zhang et al., 2022 (https://arxiv.org/html/2605.26350#bib.bib36)）。覆盖导向的选择方法进一步表明，示例集的有效性取决于其整体构成，而不仅仅是单个示例的质量（Gupta et al., 2023 (https://arxiv.org/html/2605.26350#bib.bib38)；Li and Qiu, 2023 (https://arxiv.org/html/2605.26350#bib.bib37)）。最近基于影响力的分析也表明，上下文示例可能对模型预测产生异质影响（Nguyen and Wong, 2023 (https://arxiv.org/html/2605.26350#bib.bib39)）。  

## 3 方法  

### 3.1 ICL 设置  
令 \(\mathcal{T}\) 为一个任务，具有输入空间 \(\mathcal{X}\) 和输出空间 \(\mathcal{Y}\)。一个 ICL 提示包含 \(M\) 个示例  
\[
D = \bigl( (x_1, y_1), \ldots, (x_M, y_M) \bigr), \qquad (x_i, y_i) \in \mathcal{X} \times \mathcal{Y},
\tag{1}
\]  
后跟一个查询输入 \(x^{\mathrm{q}}\)。在固定的提示模板 \(\Pi(\cdot)\) 下，语言模型 \(f_\theta\) 预测  
\[
\hat{y} = f_\theta \bigl( \Pi(D, x^{\mathrm{q}}) \bigr).
\tag{2}
\]  
对于分类任务，\(y \in \mathcal{Y}\) 是一个类别标签；对于推理任务，\(y\) 表示归一化的答案字符串。在整个过程中，除非另有说明，我们保持指令文本、标签名称、示例顺序和查询输入不变。唯一的攻击面是示例的**输入侧**。  

### 3.2 任务保持扰动  
我们研究上下文示例输入侧的任务保持扰动。令 \(g_{\mathcal{T}}: \mathcal{X} \rightarrow \mathcal{Y}\) 表示由任务 \(\mathcal{T}\) 诱导的黄金输入-输出映射。给定一个原始示例 \((x_i, y_i)\)，其中 \(y_i = g_{\mathcal{T}}(x_i)\)，扰动将示例输入 \(x_i\) 映射到 \(\tilde{x}_i\)。对应的目标由同一任务映射决定：\(\tilde{y}_i = g_{\mathcal{T}}(\tilde{x}_i)\)。我们将任务保持扰动的允许集定义为  
\[
\mathcal{N}_{\mathrm{task}}(x_i, y_i) = \left\{ (\tilde{x}_i, \tilde{y}_i) \in \mathcal{X} \times \mathcal{Y} : \tilde{y}_i = g_{\mathcal{T}}(\tilde{x}_i) \right\}.
\tag{3}
\]  
该条件保持任务定义、提示格式、示例顺序和查询输入不变，同时要求每个扰动后的示例在相同任务下仍然是有效的输入-输出对。重要的是，任务一致性并不要求输出词元保持不变。只有改变任务相关语义的扰动才需要更新目标，而语义保持的扰动则保留原始目标。在这一框架下，严格的标签保持扰动是一个特例。

当正确示例有害：重新思考语境学习中示例的作用

相似文章

面向鲁棒的上下文学习：利用分布外代理进行目标不可访问的示例检索

单一提示不够：指令敏感性削弱嵌入模型评估

真实场景下的对比归因：针对现实基准中大模型失效的可解释性分析

人类策展何时及为何适得其反：多模型自消费循环下的偏好对齐

论大语言模型适应性的局限：模型内化先验对标注任务性能的影响

提交意见反馈