话语角色标签作为语言模型上下文使用的呈现时间变量
摘要
本文研究了在 RAG 系统中用于包裹上下文的话语角色标签(例如"Reference:"、"Instruction:"、"Example:")如何显著影响语言模型采纳误导性信息的程度。研究在 GPT-4.5、DeepSeek V3 Pro、Llama-3-8B-Instruct 和 Qwen2.5-7B-Instruct 上观察到了 56 至 84 个百分点的变化幅度。作者认为,包裹标签应被视为呈现阶段的变量,并应在上下文利用基准测试中加以报告和控制。
arXiv:2606.04109v1 公告类型:新论文
摘要:上下文增强语言模型系统通常会为所提供的内容加上诸如 Reference:(参考)、Evidence:(证据)、Instruction:(指令)、Note:(注释)或 Example:(示例)等标签,但这些标签对模型读取行为的影响尚未得到充分探索。我们针对 500 道 MMLU-Pro 题目引入了一种配对固定内容探测方案:每道题目在不同话语角色标签下接收相同的含误导性答案的断言,并通过模型是否输出注入的错误选项来衡量采纳率。在 GPT-5.5、DeepSeek V4 Pro、Llama-3-8B-Instruct 和 Qwen2.5-7B-Instruct 上,误导性采纳率(Misleading Adoption Rate)的变动幅度达 56 至 84 个百分点。具有约束性或类来源性的标签(如 Instruction: 和 Reference:)会产生较高的采纳率,而 Example: 则始终能抑制采纳行为。配对检验、自举置信区间、末尾指令消融实验以及 Qwen 最终步骤对数概率探测均支持"标签条件候选偏好"这一结论。边界探测揭示了该效应减弱或持续的条件:算术任务会降低采纳率,段落形式的外部上下文在保留更小标签差距的同时保持效应存在,简答题评估排除了选项字母复制的可能性,而嵌套标签冲突则表明说明性框架可以限定采纳范围。一项由单一作者对 200 个案例进行的人工审计证实,简答题对比结果在保守评判标准下具有稳定性。由此得出的结论有明确边界但具有实践意义:上下文利用基准测试和读取端 RAG 基准测试应报告并控制包装标签,因为呈现方式的选择可能改变对所提供上下文的测量依赖程度。
查看缓存全文
缓存时间: 2026/06/05 02:12
# 话语角色标签作为语言模型上下文使用的呈现时变量
来源:https://arxiv.org/html/2606.04109
###### 摘要
上下文增强型语言模型系统通常会使用诸如 `Reference:`、`Evidence:`、`Instruction:`、`Note:` 或 `Example:` 等标签来包装所提供的内容,但这些标签对读者模型行为的影响尚未得到充分研究。我们在 500 个 MMLU-Pro 题目上引入了一种固定内容的配对探测方案:每个题目在不同话语角色标签下接收相同的含有误导性答案的断言,并通过模型是否输出被注入的错误选项来衡量采纳率。在 GPT-5.5、DeepSeek V4 Pro、Llama-3-8B-Instruct 和 Qwen2.5-7B-Instruct 四个模型上,误导性采纳率(MAR)的变化幅度达 56–84 个百分点。`Instruction:` 和 `Reference:` 等具有约束性或类来源的标签会产生较高的采纳率,而 `Example:` 则始终能抑制采纳。配对检验、自助法置信区间、最终指令消融实验以及 Qwen 最终步骤对数概率探测均支持标签条件下的候选偏好假设。边界探测揭示了该效应减弱或持续存在的条件:算术任务降低了采纳率,段落形式的外部上下文在较小的标签差距下仍能保留该效应,简答题评估排除了选项字母复制的可能性,而嵌套标签冲突表明说明性框架可以限定采纳范围。200 个案例的单一作者人工审核确认,简答题对比在保守评判标准下仍然稳定。由此得出的结论是有限但实用的:上下文利用率和读者端 RAG 基准测试应当报告并控制包装标签,因为呈现选择会改变对所提供上下文的依赖程度的测量结果。
###### 关键词:
大语言模型,上下文利用,检索增强生成,呈现时格式化,话语角色标签,评估方法论
††期刊:Information Processing & Management \affiliation [inst1] 成都信息工程大学,四川省成都市双流区银河路五段 366 号,邮编 610225
{highlights}
- 话语角色标签在 MMLU-Pro 上使误导性采纳率偏移 56–84 个百分点。
- 一个对齐的无标签/指令/示例子集支持跨模型复现。
- 段落包装器探测表明该效应在段落形式上下文中依然存在。
- 对数概率与嵌套标签探测揭示了偏好效应和范围效应。
- 上下文利用基准测试应报告包装标签。
## 1 引言
检索-阅读器流水线不仅决定向语言模型传递*什么*信息,还决定*如何*呈现这些信息。检索到的段落、工具输出、记忆片段、示范样例以及提示模板块通常会被 `Reference:`、`Evidence:`、`Instruction:`、`Note:` 或 `Example:` 等短标签所包装。在许多系统中,这些标签被视为供人类阅读者进行视觉组织的装饰性元素。本文探究它们是否同样是机器阅读者的功能性呈现时变量。
这一问题对信息处理与管理领域具有重要意义,因为上下文增强系统越来越多地通过模型对所提供信息的忠实性和选择性来进行评估。如果相同的含答案内容在被标记为参考文献时会被采纳,而在被标记为示例时会被抑制,那么基准测试所衡量的就不仅仅是上下文内容本身,还包括分配给该内容的角色。
图1 (https://arxiv.org/html/2606.04109#S1.F1) 展示了所研究变量在检索-阅读器流水线中的位置:位于信息被检索、生成或召回之后,读者模型将其转化为答案之前。
检索/工具/记忆 → 所提供的外部信息 → **包装层**(`Reference:` / `Evidence:` / `Instruction:` / `Example:`)→ 阅读器模型 → 答案决策 ← **此处研究的呈现时变量**
**图1:** 话语角色标签在上下文增强检索-阅读器流水线中的位置。本文在保持所提供含答案内容固定的情况下,研究包装层的影响。
先前研究已表明,大语言模型的行为对提示措辞、呈现时格式化、标点符号、欠规范化、示范样例以及检索上下文均存在敏感性 \(Sclar et al., 2024 (https://arxiv.org/html/2606.04109#bib.bib1); He and others, 2024 (https://arxiv.org/html/2606.04109#bib.bib5); Seleznov et al., 2025 (https://arxiv.org/html/2606.04109#bib.bib7); Liu et al., 2024 (https://arxiv.org/html/2606.04109#bib.bib12), 2025 (https://arxiv.org/html/2606.04109#bib.bib17); Zhang et al., 2025 (https://arxiv.org/html/2606.04109#bib.bib19)\)。我们研究的是一个更为具体且更具诊断价值的问题:在含答案内容固定的情况下,附加在该内容上的话语角色标签是否决定模型是否采纳它?为将这一受控问题与上下文增强场景相连接,本文将段落形式的包装器探测作为主要的读者端证据层,而非将其视为装饰性的附录检验。
我们将这一现象称为*角色条件下读者对所提供内容的采纳*。实验设计保持问题、答案选项、注入的错误选项、错误选项文本、提示位置和最终答案指令均固定不变,仅改变局部话语角色标签。结果不是广泛提示变体下的总体准确率漂移,而是针对同一受控误导性断言的题目内配对采纳情况。这一设计将错误答案转化为测量工具:如果模型输出被注入的错误选项,则表明它在该标签下采纳了所提供的声明。
我们的核心贡献是一种将包装标签视为受控变量的评估设计。**第一**,我们引入了一种配对协议,在保持所提供内容固定的同时隔离话语角色标签,从而使包装选择在上下文使用评估中可观测而非隐式存在。**第二**,我们报告了跨四个阅读器模型的交叉系统复现结果,包括一个完全对齐的无标签/指令/示例子集,在经过审核的 MMLU-Pro 设置中误导性采纳率偏移达 56–84 个百分点。**第三**,我们通过段落形式的外部上下文提供了与 RAG 相关的读者端证据,同时明确将该探测与端到端检索评估分开。**第四**,我们通过最终指令消融实验和最终步骤对数概率提供了解码层面的证据。**第五**,我们利用 GSM8K、混合语言提示、标签分类探测、模板变体、嵌套标签冲突、简答输出以及简答判断的单一作者人工审核,刻画了任务承受能力和输出格式方面的边界。
综合来看,这些结果支持一个有限但实用的方法论主张:上下文利用基准测试应当报告并控制包围所提供或检索内容的包装标签,因为这些标签会改变对外部信息依赖程度的测量结果。
## 2 相关工作
### 2.1 提示敏感性与呈现效应
大量提示敏感性研究已经从广泛意义上表明形式至关重要:措辞、格式化、标点符号、欠规范化、评分伪影以及提示变体都可能改变模型行为 \(Sclar et al., 2024 (https://arxiv.org/html/2606.04109#bib.bib1); Chatterjee and others, 2024 (https://arxiv.org/html/2606.04109#bib.bib2); Zhuo and others, 2024 (https://arxiv.org/html/2606.04109#bib.bib3); Lu et al., 2024 (https://arxiv.org/html/2606.04109#bib.bib4); He and others, 2024 (https://arxiv.org/html/2606.04109#bib.bib5); Razavi et al., 2025 (https://arxiv.org/html/2606.04109#bib.bib6); Seleznov et al., 2025 (https://arxiv.org/html/2606.04109#bib.bib7); Hua et al., 2025 (https://arxiv.org/html/2606.04109#bib.bib8); Pecher et al., 2026 (https://arxiv.org/html/2606.04109#bib.bib9); Liu and Chu, 2026 (https://arxiv.org/html/2606.04109#bib.bib10)\)。我们将该文献作为研究动机,而非对比目标。这里更为具体的问题是:当断言文本、答案选项、错误选项、提示位置和最终答案指令均保持固定时,局部角色标签是否会改变采纳情况。
### 2.2 上下文内示范
示例是本研究中一个自然的歧义来源。上下文学习相关研究已表明,示范样例、其顺序及呈现方式都会影响模型行为 \(Wang et al., 2024a (https://arxiv.org/html/2606.04109#bib.bib22); Peng and others, 2024 (https://arxiv.org/html/2606.04109#bib.bib23); Zhang and others, 2024 (https://arxiv.org/html/2606.04109#bib.bib24); Su and others, 2024 (https://arxiv.org/html/2606.04109#bib.bib25); Qin and others, 2024 (https://arxiv.org/html/2606.04109#bib.bib26); Agarwal and others, 2024 (https://arxiv.org/html/2606.04109#bib.bib27); Bertsch and others, 2025 (https://arxiv.org/html/2606.04109#bib.bib28)\)。我们对 `Example:` 的使用有所不同:所提供的句子并非一个为模仿而选择的已解示范。它与其他条件下使用的是完全相同的反事实含答案断言,仅包装标签发生了变化。这使我们能够测试分配给内容的角色,而非示例集的质量。
### 2.3 RAG 忠实性、上下文冲突与来源归因
最接近的应用场景是检索增强阅读。先前研究已记录模型可能存在上下文利用不足、忽略检索证据、表现出位置效应,或在冲突下混合参数化知识与检索知识等问题 \(Liu et al., 2024 (https://arxiv.org/html/2606.04109#bib.bib12); Wu and others, 2024 (https://arxiv.org/html/2606.04109#bib.bib13); Qi et al., 2024 (https://arxiv.org/html/2606.04109#bib.bib14); Es et al., 2024 (https://arxiv.org/html/2606.04109#bib.bib15); Shen and others, 2024 (https://arxiv.org/html/2606.04109#bib.bib16); Liu et al., 2025 (https://arxiv.org/html/2606.04109#bib.bib17); Hagström and others, 2025 (https://arxiv.org/html/2606.04109#bib.bib18); Zhang et al., 2025 (https://arxiv.org/html/2606.04109#bib.bib19); Ming and others, 2025 (https://arxiv.org/html/2606.04109#bib.bib20); Lin et al., 2026 (https://arxiv.org/html/2606.04109#bib.bib21)\)。来源归因和证据使用研究通常询问答案是否由正确的材料支撑。我们提出的是一个更小的读者端问题:如果材料是固定的,标签能否改变它是否被采纳?段落包装器探测正是出于这一原因而被纳入,并未作为端到端检索器-阅读器基准进行报告。
### 2.4 外部上下文安全性
该结果还具有与安全相关的解读视角。提示注入、间接提示注入、指令/数据分离以及外部上下文安全性研究考察不可信文本如何影响模型集成系统 \(OWASP Foundation, 2025 (https://arxiv.org/html/2606.04109#bib.bib31); Russinovich, 2024 (https://arxiv.org/html/2606.04109#bib.bib32); Microsoft Agent Framework Team, 2026 (https://arxiv.org/html/2606.04109#bib.bib33); Hines et al., 2024 (https://arxiv.org/html/2606.04109#bib.bib36); Chen et al., 2025 (https://arxiv.org/html/2606.04109#bib.bib37); Zverev et al., 2025 (https://arxiv.org/html/2606.04109#bib.bib38); Zhan et al., 2024 (https://arxiv.org/html/2606.04109#bib.bib39); Debenedetti et al., 2024 (https://arxiv.org/html/2606.04109#bib.bib40); Yi et al., 2025 (https://arxiv.org/html/2606.04109#bib.bib41); Zou et al., 2025 (https://arxiv.org/html/2606.04109#bib.bib42); Al Masoud et al., 2026 (https://arxiv.org/html/2606.04109#bib.bib34); Khodayari et al., 2026 (https://arxiv.org/html/2606.04109#bib.bib35)\)。我们不评估攻击,也不提出防御方案。其相关性更为有限:普通的上下文标签可以改变对固定外部断言的采纳情况,因此标签选择应被视为上下文呈现设计的组成部分。
| 研究领域 | 内容是否变化? | 固定断言? | 包装角色? | 配对采纳? | 报告指南? |
|---|---|---|---|---|---|
| 提示敏感性 | 通常是 | 通常否 | 广泛格式化 | 通常否 | 有限 |
| 上下文内示范 | 是 | 否 | 示例呈现 | 通常否 | 以示范为重点 |
| RAG 忠实性/冲突 | 是 | 有时 | 极少隔离 | 取决于任务 | 以证据为重点 |
| 来源归因 | 是 | 通常否 | 来源标记 | 通常否 | 以引用为重点 |
| **本工作** | **否** | **是** | **是** | **是** | **包装标签** |
**表1:** 与相邻文献的定位比较。贡献并不在于提示在一般意义上有影响,而在于局部话语角色包装器改变了对同一固定误导性断言的配对采纳情况,并为上下文利用基准测试提供了具体的报告建议。
## 3 框架与方法论
*上下文断言*是指在任务输入前追加的一个语句,其中包含与当前问题相关的答案或声明。在主实验中,该断言包含一个多选题选项及其选项文本,例如 `Reference: The answer is (B).` 或 `Example: The answer is (B).`。*话语角色标签*是为该断言分配角色的短前缀。有些标签具有约束性或证据性,有些具有建议性或说明性,而虚构标签 `Zorple:` 保留了标签语法而不携带可解释的话语角色。
对于每个题目 $i$,选取一个错误选项 $w_i$ 并在所有标签条件下复用。若模型在标签 $\ell$ 下的输出 $\hat{y}_{i,\ell}$ 等于 $w_i$,则所提供的断言被计为已采纳。主要指标为误导性采纳率(MAR):
$$\mathrm{MAR}(\ell) = \frac{1}{n}\sum_{i}\mathbf{1}[\hat{y}_{i,\ell} = w_i]. \tag{1}$$
MAR 不应被解读为普通任务错误率。它是一种有针对性的采纳度量:在固定的反事实冲突下,模型要么遵循、要么抵抗所提供的误导性声明。直觉上,`Instruction:` 和 `Reference:` 等标签使断言感觉更接近当前答案决策,而 `Example:` 则将同一句话框架为说明性而非操作性内容。
主要任务是 MMLU-Pro 风格的多项选择题问答 \(Wang et al., 2024b (https://arxiv.org/html/2606.04109#bib.bib11)\)。其十选项格式使特定错误答案的采纳直接可观测,并降低了主要采纳指标的歧义性。对于每个采样题目,使用固定随机种子选取一个错误选项,并在所有标签条件下复用,因此标签比较是题目内配对的,不受错误答案合理性的干扰。GSM8K 被用作边界任务,因为算术应用题需要独立推导,不适合直接复用答案。
两个 GPT-5.5 阅读器设置探测使用相同的 500 个配对 MMLU-Pro 题目:段落包装器探测将误导性答案文本嵌入类似段落的外部上下文中,简答探测要求给出文本答案而非选项字母。对齐的跨模型子集使用共享的无标签、`Instruction:` 和 `Example:` 条件;更广泛的标签库被视为特定模型的扩展,而非直接可比的标签集。
模型选取旨在将详细的主运行与复现及诊断探测分开。GPT-5.5 用于最干净的六标签运行、最终指令消融实验、混合语言重新运行以及阅读器设置探测。Qwen2.5-7B-Instruct 支持开放权重的最终步骤对数概率分析。DeepSeek V4 Pro 和 Llama-3-8B-Instruct 以不同的模型系列和提示实现方式补充了结构性复现。API 实验在可用时使用确定性解码;本地开放权重实验使用贪心或温度为零的生成。
由于样本索引和错误选项在各条件间配对,主要比较使用精确 McNemar 检验和配对自助法置信区间。在可用时报告准确率、无输出率和其他输出率,以避免将采纳率与其混淆。相似文章
LLM蕴含多样性:部署环境如何重塑模型层面的偏好与价值观
本文探讨大型语言模型在不同部署环境中是否具有稳定的偏好,发现环境变化引起的差异远大于提示扰动,表明测得的偏好是环境条件决定的而非固定属性。
赋予角色的大型语言模型表现出类似人类的动机推理
本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。
在复杂隐藏角色游戏中评估大型语言模型
本文介绍了一个开源框架,用于评估大型语言模型在隐藏角色游戏《秘密希特勒》中的推理、说服和欺骗能力。研究发现,当前模型在持续的多轮操纵上表现不佳,而基于规则的智能体优于它们。
面向心理健康交互的大语言模型中框架敏感行为不稳定性审计
本文研究了上下文框架如何影响大语言模型在心理健康交互中的响应,发现了系统性的行为变异,并证明了内部表示在Transformer各层中编码了框架信息。
言过其实:量化大语言模型认知-修辞失准的框架
提出一套量化框架,揭示 LLM 如何借修辞手段夸大确定性,并发现跨模型的认知-修辞失准共性。