指令塑造语言生成,而非处理
摘要
这项研究探讨了指令如何影响大型语言模型,发现其主要影响语言生成阶段,而非处理阶段。该研究利用基于注意力的干预方法和探针技术,在多种模型系列和任务中证明了这种不对称性。
arXiv:2605.11206v1 公告类型:新文章
摘要:指令在语言模型中触发了一种以生成为中心的机制。通过采用分离语言处理与生成的认知视角,我们通过在五种二元判断任务中逐层探测特定任务的信息,揭示了这两个阶段之间的不对称性。具体而言,我们测量了指令标记在评估输入样本标记时(处理阶段)以及在输出标记生成时(生成阶段)对信息的影响。在不同的提示变化下,样本标记中的特定任务信息保持相对稳定,且与行为的相关性较弱;相比之下,输出标记中的相同信息变化显著,且与行为高度相关。基于注意力的干预从因果上证实了这一模式:阻断指令流向所有后续标记会同时降低输出标记的行为和信息含量,而仅阻断其流向样本标记对两者的影响微乎其微。这种不对称性在不同模型系列和任务中普遍存在,并随着模型规模的扩大和指令微调而变得更加明显,这两者都对生成阶段产生了不成比例的影响。我们的研究表明,要理解模型能力,需要联合评估内部机制和行为表现,同时通过按标记位置分解内部视角,以区分输入标记的处理与输出标记的生成。
查看缓存全文
缓存时间: 2026/05/13 06:09
# 指令塑造语言生成,而非处理
来源:https://arxiv.org/html/2605.11206
Andreas Waldis ![[Uncaptioned image]](https://arxiv.org/html/2605.11206v1/images/icon_tuebingen.png) 蒂宾根大学语言学系
Leshem Choshen ![[Uncaptioned image]](https://arxiv.org/html/2605.11206v1/images/icon_ibm.png) IBM 研究院,![[Uncaptioned image]](https://arxiv.org/html/2605.11206v1/images/icon_mit.png) MIT,以及 MIT-IBM Watson AI 实验室
Yufang Hou ![[Uncaptioned image]](https://arxiv.org/html/2605.11206v1/images/icon_itu.png) 奥地利跨学科转型大学
Yotam Perlitz ![[Uncaptioned image]](https://arxiv.org/html/2605.11206v1/images/icon_ibm.png) IBM 研究院
###### 摘要
指令在语言模型中触发了一种以**生成**为中心的机制。通过区分语言**处理**和**生成**的认知启发视角,我们通过逐层探测五个二元判断任务中特定于任务的信息,揭示了这两个阶段之间的不对称性。具体而言,我们测量**指令**token如何塑造信息,既包括当**样本**token(正在评估的输入)被**处理**时,也包括当**输出**token被**生成**时。在不同的提示变体中,样本token中的特定任务信息保持相对稳定,且与行为仅呈弱相关;而输出token中的相同信息变化显著,且与行为强相关。基于注意力的干预从因果角度证实了这一模式:阻断指令流向所有后续token会降低输出token中的行为表现和信息含量,而仅阻断其流向样本token对两者影响甚微。这种不对称性在不同模型家族和任务中普遍存在,并随着模型规模和指令微调而加剧——这两者都对生成阶段产生不成比例的影响。我们的研究表明,理解模型能力需要同时评估内部状态和行为,并通过按token位置分解内部视角,将输入token的处理与输出token的生成区分开来。
## 1 引言
人类将指令与先验知识整合起来,以适应特定任务(Sachs, 1967 (https://arxiv.org/html/2605.11206#bib.bib48); Chein & Schneider, 2012 (https://arxiv.org/html/2605.11206#bib.bib9))。认知理论将这一过程区分为两个阶段(Dell, 1986 (https://arxiv.org/html/2605.11206#bib.bib14); Levelt, 1989 (https://arxiv.org/html/2605.11206#bib.bib34)):**语言处理**,指令在此塑造输入的理解方式;以及**语言生成**,指令在此指导这种理解如何表达。例如,面对“这个句子语法正确吗?”这样的指令,人在阅读时会选择性关注句法特征,并利用指令来引导回答(Desimone & Duncan, 1995 (https://arxiv.org/html/2605.11206#bib.bib15); Brass et al., 2017 (https://arxiv.org/html/2605.11206#bib.bib7))。因此,指令似乎对人类影响的两个阶段都有作用。
同样,语言模型(LMs)在问答、推理和代码生成等任务中也表现出强大的指令遵循能力(Ouyang et al., 2022 (https://arxiv.org/html/2605.11206#bib.bib46); Jiang et al., 2024 (https://arxiv.org/html/2605.11206#bib.bib30); Walsh et al., 2025 (https://arxiv.org/html/2605.11206#bib.bib63); Guo et al., 2025 (https://arxiv.org/html/2605.11206#bib.bib21) 等)。与此同时,它们对无关任务的变体(如提示重述)保持高度敏感(Sclar et al., 2024 (https://arxiv.org/html/2605.11206#bib.bib50); Mizrahi et al., 2024 (https://arxiv.org/html/2605.11206#bib.bib40); Habba et al., 2025 (https://arxiv.org/html/2605.11206#bib.bib22))。
遵循人类中这种对称模式的自然假设是,这种敏感性源于指令token既塑造了样本token的编码方式,又进而影响了输出token的生成方式。与这种直觉相反,我们发现一致的证据支持一种**以生成为中心**的机制,简言之:**指令**token主要影响语言模型如何从已编码的信息中**生成**输出token,而对样本token的处理保持相对稳定。
受认知学中处理与生成区分的启发,我们通过token位置在模型计算中操作化这两个阶段(§ 2 (https://arxiv.org/html/2605.11206#S2)):样本token处的表示($\vec{h}_S$)作为处理的代理,输出token处的表示($\vec{h}_O$)作为生成的代理。我们通过研究模型内部这两个阶段,并将其与行为视角联系起来(§ 4 (https://arxiv.org/html/2605.11206#S4)),来建立这一机制。在五个二元判断任务和三个模型家族(Llama-3.1 (Dubey et al., 2024 (https://arxiv.org/html/2605.11206#bib.bib16))、OLMO-2 (Walsh et al., 2025 (https://arxiv.org/html/2605.11206#bib.bib63)) 和 Qwen-2.5 (Yang et al., 2024 (https://arxiv.org/html/2605.11206#bib.bib67)))中,逐层探测显示,样本token中的特定任务信息在提示变体中保持稳定,且与行为仅弱相关,而输出token中的信息变化显著,并与行为强一致。基于注意力的干预提供了因果支持:阻断从指令到所有后续token的信息流会降低性能,同时保持样本表示基本不变,而仅阻断其流向样本token对两者影响甚微。
通过进一步分析(§ 5 (https://arxiv.org/html/2605.11206#S5) 和 § 6 (https://arxiv.org/html/2605.11206#S6)),我们细化了这一机制,并从模型规模、训练和任务类型的维度刻画了处理-生成不对称性:
- **缩放不成比例地加强了生成。** 在不同模型家族中,逐层剖面存在差异,且放大模型规模相比处理而言,不成比例地加强了生成。
- **指令微调主要加强生成。** 指令微调模型在输出位置携带的特定任务信息远多于其基础模型 counterpart,而样本表示保持相对不变——这反映了缩放模式,并与**表层对齐假设**(Superficial Alignment Hypothesis)(Zhou et al., 2023 (https://arxiv.org/html/2605.11206#bib.bib69)) 一致,该假设认为后训练塑造了编码信息的表达方式,而非编码内容本身。
- **任务类型调节不对称性。** 知识和推理任务(oLMpics, EWOK, ToM)在两个阶段间表现出强烈的不对称性,而表面敏感任务(BLiMP, StereoSet)则显示出更紧密的耦合。
Refer to caption Figure 1: 我们分析**行为**(顶部)和**内部状态**(底部)在**处理**指令和样本token(左下角)以及**生成**输出token(右下角)的计算阶段中的表现。探测揭示了一种不对称性:样本表示($\vec{h}_S$)中的特定任务信息在提示变体中保持稳定,且与行为解耦,而输出表示($\vec{h}_O$)中的信息发生变化并跟踪行为。
这种以生成为中心的机制对我们如何评估、解释和训练语言模型具有影响(§ 8 (https://arxiv.org/html/2605.11206#S8))。仅靠行为评估混淆了两种不同的故障模式:在处理期间缺失任务相关信息,或在生成期间未能表达这些信息(Gekhman et al., 2025 (https://arxiv.org/html/2605.11206#bib.bib19); Orgad et al., 2025 (https://arxiv.org/html/2605.11206#bib.bib45))。鉴于此,LMs 众所周知的提示敏感性最好被理解为生成阶段的现象,而不是输入编码不稳定的标志。更广泛地说,区分处理和生成为定位模型在哪里以及为何失败提供了一种原则性方法。它使更准确的评估成为可能,建议了效率改进,例如在键值缓存中降低指令token的优先级,并引发了一个问题:平衡指令对两个阶段的影响是否能进一步提高指令遵循能力。最后,基于token位置的操作化为研究除指令影响外,不同因素如何影响模型内部计算提供了一般性的分析视角。
## 2 背景
#### 语言处理与生成
语言生成是人类的一项基本认知过程。它通常由交际意图发起,或者在语言模型的情况下,由先前生成的语言输入发起。具体而言,我们假设**指令**和任务**样本**token生成**输出**token。受认知科学研究启发(Dell, 1986 (https://arxiv.org/html/2605.11206#bib.bib14); Levelt, 1989 (https://arxiv.org/html/2605.11206#bib.bib34)),我们将此过程概念化为两个阶段:
- **语言处理**,其中特定于任务的指令和样本token被编码为潜在表示 $\phi$。当由人类执行时,我们假设他们可以利用其对语言和世界的普遍知识。在这个过程中,认知理论建议指令隐式地建立一个**任务集**,控制如何应用这些知识来处理输入(Monsell, 2003 (https://arxiv.org/html/2605.11206#bib.bib41); Brass et al., 2017 (https://arxiv.org/html/2605.11206#bib.bib7))。该任务集在语言处理期间充当门控机制,引导对**什么**以及**如何**信息编码到 $\phi$ 中的选择性注意,通过优先处理与当前指令一致的输入特定方面(Sachs, 1967 (https://arxiv.org/html/2605.11206#bib.bib48); Chein & Schneider, 2012 (https://arxiv.org/html/2605.11206#bib.bib9); Miller & Cohen, 2001 (https://arxiv.org/html/2605.11206#bib.bib38))。因此,$\phi$ 反映了输入被编码时所在的特定任务集,因而对指令敏感。
- **语言生成**,其中 $\phi$ 被解码为输出token——即可观察的语言发声。在此阶段,处理期间建立的任务集门控了**如何**使用 $\phi$ 中编码的信息来产生语言发声,选择哪些方面被口述以及以何种形式(Schütze, 2016 (https://arxiv.org/html/2605.11206#bib.bib49); Van Maanen et al., 2024 (https://arxiv.org/html/2605.11206#bib.bib58))。例如,同一句话在一个指令下可能产生语法判断,而在另一个指令下产生合理性评估,因为任务集既塑造了处理期间编码到 $\phi$ 中的内容,也塑造了生成期间 $\phi$ 的解码方式。
这两个阶段都依赖于基础语言系统——即**语言能力**(linguistic competence)(de Saussure, 1916 (https://arxiv.org/html/2605.11206#bib.bib13); Chomsky, 1965 (https://arxiv.org/html/2605.11206#bib.bib10))——并表现为可观察的发语(parole,或**语言表现**)。对于语言模型而言,一个关键问题是:指令是否同样门控语言处理和生成的这两个阶段,还是主要作用于其中一个阶段。
#### 语言模型中的语言处理与生成
为了研究这个问题,我们在仅解码器语言模型的下一个token生成过程中操作化处理和生成(Radford & Narasimhan, 2018 (https://arxiv.org/html/2605.11206#bib.bib47); Biderman et al., 2023 (https://arxiv.org/html/2605.11206#bib.bib6); Walsh et al., 2025 (https://arxiv.org/html/2605.11206#bib.bib63))。给定前缀 $x_{<t}$,模型在词汇表 $\mathcal{V}$ 上估计下一个token分布 $P(x_t | x_{<t})$,同时构建逐层表示 $\vec{h} \in \mathbb{R}^d$,其中每一层 $\mathcal{L}$ 通过 $\vec{h}^{(l)} = \mathcal{L}(\vec{h}^{(l-1)})$ 使用注意力机制(Vaswani et al., 2017 (https://arxiv.org/html/2605.11206#bib.bib59))转换前一状态。在最后一层,一个输出投影($\mathbb{R}^d \rightarrow \mathbb{R}^{|\mathcal{V}|}$)后跟 softmax 产生对 $v \in \mathcal{V}$ 的分布。
虽然受认知理论启发,但我们将从处理-生成区分视为对这些模型计算的分析视角,而不是关于LMs如何实现这些阶段的主张。我们通过token位置近似这两个阶段:样本token处的表示反映语言处理阶段($\vec{h}_S$),输出token处的表示反映语言生成($\vec{h}_O$)。这种基于token位置的操作化抽象了内部架构特性,因此可以扩展到其它架构,如扩散文本模型(Nie et al., 2026 (https://arxiv.org/html/2605.11206#bib.bib43))。
#### 通过探测测量特定任务信息
为了测量在每个层中LMs的内部表示($\vec{h}$)中编码了多少特定于任务的信息,我们采用基于分类器的探测方法(Alain & Bengio, 2017 (https://arxiv.org/html/2605.11206#bib.bib1); Belinkov, 2022 (https://arxiv.org/html/2605.11206#bib.bib5); Waldis et al., 2024 (https://arxiv.org/html/2605.11206#bib.bib61))。在那里,我们训练一个**探测器** $f$ 从 $\vec{h}$ 预测被测属性 $p$:
$$ f: \vec{h} \longmapsto p \quad (1) $$
根据特定属性的性质,以前的工作在探测之前应用不同的聚合步骤,例如在探测词性时(Tenney et al., 2019a (https://arxiv.org/html/2605.11206#bib.bib53))或实体类型时(Tenney et al., 2019b (https://arxiv.org/html/2605.11206#bib.bib54))对所有单个词的token平均 $\vec{h}$,平均句子表示以研究句子属性(Conneau et al., 2018 (https://arxiv.org/html/2605.11206#bib.bib11)),或连接词或句子表示以研究其关系(Hewitt & Manning, 2019 (https://arxiv.org/html/2605.11206#bib.bib26); Koto et al., 2021 (https://arxiv.org/html/2605.11206#bib.bib31))。
在我们的设置中,我们分别对处理阶段的样本token和生成阶段的输出token平均 $\vec{h}$。为了忠实地研究 $\vec{h}$ 中的 $p$,我们假设一个简单的探测器——如线性模型——缺乏其自身的学习能力,因此可以有效地作为一个传感器,提供基于其预测 $\hat{p}$ 编码在 $\vec{h}$ 中信息的下界。然后,我们将每个模型层的信息强度近似为探测器预测 $\hat{p}$ 与真实判断 $p$ 之间的准确率。由于此测量仅是下界,严格的验证至关重要。因此,我们在图8 (https://arxiv.org/html/2605.11206#A1.F8) 中测试了我们的探测设置,针对控制任务的选择性(Hewitt & Liang, 2019 (https://arxiv.org/html/2605.11206#bib.bib25))、与非线性探测器的比较以及信息论评估(Voita & Titov, 2020 (https://arxiv.org/html/2605.11206#bib.bib60))。
## 3 实验设置
我们调查指令token如何影响三个模型家族中处理和生成阶段之间的特定任务信息:Llama-3.1(Dubey et相似文章
大型语言模型的非线性干预
本文提出了一种大型语言模型非线性干预的通用公式,超越了线性表示假说,能够操控沿非线性流形编码的特征,并通过拒绝规避引导验证了该方法。
通过语言提升理解力
本文介绍了麻省理工学院大四学生奥利维亚·哈尼卡特(Olivia Honeycutt),重点展示了她在语言学、计算和认知科学交叉领域的跨学科研究,尤其关注人类语言处理与大语言模型的比较。
通过语言表征塑造图式:拓展LLM智能的下一前沿
本文指出,设计先进的语言表征以塑造认知图式,是在不扩展参数规模的前提下拓展LLM智能的关键前沿。文章提供了形式化定义与实证证据,表明不同的语言结构会显著影响模型性能与内部特征激活。
语言模型学习什么以及何时学习?隐性课程假设
本文提出隐性课程假设,证明语言模型预训练遵循一个结构化的、组合性的课程,其中能力跨架构一致涌现,并可从内部表示预测。作者通过设计涵盖检索、形态学、共指消解、推理和数学的任务进行验证,发现四个模型族中涌现顺序高度一致(ρ=0.81)。
负面先于正面:大型语言模型中的不对称效价处理
本文通过机理可解释性研究大型语言模型如何处理情感效价。通过在三个开源LLMs上使用激活修补和引导,作者发现负面效价定位于早期层,而正面效价在中后期层达到峰值,并通过主题控制翻转测试验证了这一点。