语言模型隐藏状态中的轨迹动态预测人类处理成本超越惊讶度

arXiv cs.CL 2026/06/05 04:00 论文

language-models psycholinguistics surprisal hidden-states reading-times transformer cognitive-modeling

摘要

介绍轨迹外推误差，这是一种从变换器语言模型隐藏状态导出的度量，它独立于惊讶度且与其正交地预测人类阅读时间，揭示了增量处理成本中一个可分离的成分。

arXiv:2606.05346v1 Announce Type: new Abstract: 人类语言理解是顺序展开的：每个词都在先前语境的背景下被处理，解释随时间逐步构建。惊讶度（surprisal），即给定语境下一个词的负对数概率，一直是增量处理成本的主要预测因子。但惊讶度将丰富的序列表示简化为每个词上的单个标量，丢弃了关于解释演化方向的信息。动力系统方法表明，演化解释状态的轨迹（而不仅仅是每个时刻的位置）应塑造处理过程，语言本身可能具有局部动量，因为说话者一次计划几个词的话语。我们引入轨迹外推误差：在每个词上，我们对变换器语言模型之前的隐藏状态拟合线性轨迹，并测量与外推路径的偏差。在Natural Stories语料库上，该度量与惊讶度几乎正交（r = .044），并独立预测自定步速阅读时间。这种效应在花园路径句子中尤为显著，随模型规模（GPT-2 Small到Large）增强，并在不同位置编码方案（GPT-2 vs. Pythia/RoPE）的架构中重复。位移控制显示，该效应不能归结为表征变化幅度：位移和外推误差预测方向相反。这些发现揭示了处理成本的两个可分离成分：词级预测误差（惊讶度）和对逐句解释局部动量的敏感性（轨迹外推误差）。

查看原文

查看缓存全文

缓存时间: 2026/06/05 08:06

# 语言模型隐藏状态中的轨迹动力学预测超越惊讶值的人类加工成本
来源：https://arxiv.org/html/2606.05346
Elan Barenholtz 机器感知与认知机器人实验室 心理学系 / 复杂系统中心 佛罗里达大西洋大学 elan\.barenholtz@fau\.edu

###### 摘要

人类语言理解是顺序展开的：每个单词都在其前文语境中被处理，解释随时间递增构建。惊讶值（Surprisal），即单词在给定语境下的负对数概率，一直是递增加工成本的主要预测指标。但惊讶值将丰富的顺序表示在每个单词处简化为单个标量，丢弃了解释演化方向的信息。动力系统方法表明，演化中的解释状态的轨迹（而不仅仅是每时刻的位置）应塑造加工过程，并且语言本身可能具有短视界连续性，因为说话者每次规划几个单词的话语。我们引入了**轨迹外推误差**：在每个单词处，我们拟合一条线性轨迹到Transformer语言模型的前序隐藏状态，并测量偏离外推路径的程度。在Natural Stories语料库上，该测量与惊讶值几乎正交（\(r=.044\)），并独立预测自定步速阅读时间。该效应存在于花园路径句子中，并在GPT-2变体（Small、Medium、Large）以及具有不同位置编码方案的架构（GPT-2 vs. Pythia/RoPE）中复现。一个位移控制检验表明，该效应不能归结为表示变化幅度：位移和外推误差的预测方向相反。这些发现揭示了加工成本的两个可分离的成分：单词级预测误差（惊讶值）和对演化中的解释表示中的局部连续性的敏感性（轨迹外推误差）。

## 1 引言

人类语言理解是顺序展开的。单词一个接一个地到来，读者或听者必须递增地构建解释，每个单词更新并扩展从前序单词构建的表示。理解这一递增过程是心理语言学的核心问题，而单词间的阅读时间变化长期以来一直是其主要经验特征。该特征的一个核心规律是，在语境中可预测的单词比不可预测的单词处理得更快。解释这一规律的主要计算框架是**惊讶值理论**（Hale, 2001；Levy, 2008），该理论认为处理一个单词的成本与其在前序语境下的负对数概率成正比。该框架自然地遵循信息论考虑：如果理解者维持一个关于即将到来单词的概率分布，那么遇到一个低概率单词需要对该分布进行更大的更新，而这种更新成本正是读者所体验到的困难。惊讶值作为自定步速阅读、眼动追踪和神经测量中阅读时间的预测因子取得了显著成功（Smith and Levy, 2013；Demberg and Keller, 2008；Frank et al., 2015）。

计算惊讶值需要一个底层预测模型。早期工作使用n-gram模型和概率语法（Hale, 2001；Demberg and Keller, 2008；Roark et al., 2009），它们提供了有用但有限的单词可预测性估计。基于Transformer的语言模型此后成为标准工具（Goodkind and Bicknell, 2018；Wilcox et al., 2020；Schrimpf et al., 2021），主要是因为它们的惊讶值估计比早期模型的预测效果更好，并且它们能基于任意长的上下文（而非固定窗口）进行条件化。它们也是一个自然的选择，因为它们本身就是顺序处理器：经过训练以预测给定前序序列的下一个词元，它们构建了丰富的内部表示，这些表示随着每个单词的遇到而递增更新。因为这些模型是在人类生成的文本上训练的，它们捕获的统计结构——对上下文、连贯性、话语的敏感性——正是该生成过程中潜藏的结构，这使得它们的惊讶值成为人类理解者所敏感的那些预测规律的有用指标。

但顺序处理可能涉及比逐步预测更多的东西。另一种理论传统将理解视为一个动力过程，而非一系列独立的预测，其中解释状态通过一个连续的表示空间演化（Tabor and Tanenhaus, 1999；Spivey, 2007；Cho et al., 2017）。在这种解释下，演化状态的轨迹（而不仅仅是每时刻的位置）承载着塑造加工过程的信息。这对于语言尤其可能，因为人类语言生产本身就是一个顺序的、局部规划的过程。说话者和写作者会提前规划几个单词，执行该计划，然后重新规划（Levelt, 1989；Ferreira and Swets, 2002），创造具有局部动力的文本：语境在转变前会沿着连贯方向演化的一段段区域。如果这种动力是自然语言的真实属性，并且理解者对其敏感，那么解释演化的方向（而不仅仅是下一个单词的概率）应该对加工过程很重要。

测试轨迹动力学是否塑造人类加工需要一种方法来测量演化中的解释表示中的轨迹结构。现代Transformer语言模型如GPT-2（Radford et al., 2019）提供了一个方法。它们的隐藏状态编码了一个丰富的、递增更新的关于到目前为止已处理上下文的表示，并且由于模型是在人类生成的文本上训练的，这些表示不仅反映了惊讶值捕获的预测结构，还反映了生产的其他潜在规律——包括每个单词的表示如何从其前驱扩展的短视界连续性。在这里，我们引入一个简单度量，称为**轨迹外推误差**。在每个单词位置，我们拟合一条线性轨迹到前序\(k\)个单词的隐藏状态（通常\(k=3\)），外推一步，并测量这个预测位置与实际隐藏状态之间的欧几里得距离。该度量捕捉当前单词偏离表示先前方向的程度：高外推误差意味着表示正朝着一个方向移动，而当前单词迫使它去了别处；低误差意味着当前单词延续了已有的漂移。

比较轨迹外推误差与惊讶值的逻辑是不对称的。在任一传统下，惊讶值预计会预测加工成本，因为不太可能的单词往往会打乱轨迹；发现惊讶值重要并不能区分这些框架。相比之下，发现轨迹外推误差在惊讶值之外增加了独立的解释力将是信息丰富的：它将表明理解的动力学特征以单词级预测误差未捕捉到的方式贡献于加工成本。两个具有相同条件概率的单词会得到相同的惊讶值，即使其中一个延续了已有的解释轨迹，而另一个迫使表示发生急剧转变；这类单词之间的任何成本差异都是理解中方向动力学的证据。这种不对称性并非源于计算惊讶值的语言模型的局限性：它们的隐藏状态已经携带了轨迹信息，但作为输出度量的惊讶值将其压缩为一个标量。本文探讨的问题是，惊讶值所丢弃的动力学是否具有心理现实性。

有经验理由认为它们确实有。人类加工在强烈的近因性和局部影响约束下展开（Gibson, 1998；Lewis and Vasishth, 2005），这意味着最近的单词主导当前的解释状态。在这些约束下，过去几个单词上解释的轨迹是理解者对事情走向的最可利用信号。对这种轨迹的敏感性——追踪解释的最新漂移，而非将每个单词视为独立事件——将构成一种利用自然语言局部动力的高效加工策略。花园路径句子提供了一个直观的例证：在“The horse raced past the barn fell”中，“raced”之后的每个单词都强化了主动词解释，向一个方向建立动力，而“fell”处的成本不仅反映了该单词的意外性，还反映了积累的解释方向的逆转。但如果轨迹敏感性是人类加工的一个普遍特征，那么该现象不应仅限于花园路径。任何迫使解释偏离其最近轨迹的单词都应该产生成本，即使在普通文本中也是如此，并且这种成本应该可以独立于惊讶值被测量。

一个令人费解的经验发现强化了这种可能性。Oh和Schuler（2023b）证明，随着语言模型变得更大且困惑度更低，它们的惊讶值估计反而成为人类阅读时间的**更差**预测因子，这一现象被称为惊讶值缩放悖论。预测力在中等模型尺寸处达到峰值，然后与人类行为产生分歧。这与基于轨迹的解释一致：随着模型在全上下文预测上的改进，它们的惊讶值越来越多地反映一种与人类可能实际进行的、受近因性主导和轨迹敏感的加工越来越不同的加工策略。本研究评估人类阅读时间是否反映了这种超越惊讶值所捕捉的方向敏感性。我们基于Transformer语言模型的隐藏状态计算轨迹外推误差，并探究它是否在两个互补数据集中对阅读时间预测有所贡献：SAP基准测试中的经典花园路径子集（Huang et al., 2024），其中消歧点提供了一个受控的、理论上驱动的轨迹中断位点；以及Natural Stories语料库（Futrell et al., 2018），其中相同的度量在自然文本中跨越数千个单词位置进行评估。诊断测试是轨迹外推误差是否独立于惊讶值对阅读时间预测有所贡献。肯定的结果将表明方向动力学构成了加工成本的一个可分离维度，而不是单词级可预测性的冗余总结。三个附加分析澄清了该度量捕捉了什么。一个位移控制检验评估外推误差的贡献是否能归结为每个单词处表示变化的幅度。对Natural Stories语料库的方向保持性分析表征了模型中底层轨迹结构的时间尺度。最后，跨GPT-2 Small、Medium和Large的多模型比较，以及使用Pythia（使用旋转位置嵌入而非GPT-2的绝对位置嵌入）的跨架构复现，测试轨迹结构的任何效应是否跨模型规模和位置编码方案泛化。

## 2 方法

### 2.1 材料

#### 花园路径句子。

为了在受控的、理论上驱动的中断位点测试轨迹效应，我们使用了SAP基准测试中的经典花园路径子集（Huang et al., 2024），这是一个大规模句法歧义加工数据集。该子集包含24个项目，涵盖三种结构类型：主动词/简化关系从句（MVRR；例如，“The horse raced past the barn fell”）、NP/S直接宾语/句子补语（例如，“The suspect showed the file deserved more attention”）、以及NP/Z及物/不及物（例如，“While the man hunted the deer ran into the woods”）。每个项目以歧义和非歧义条件出现，其中非歧义版本包含一个显性句法标记（例如，关系代词）以防止花园路径的误分析。人类阅读时间数据通过自定步速逐词阅读从超过2000名参与者中收集。反应时经过过滤，排除低于100毫秒或高于5000毫秒的响应。分析聚焦于关键区域：消歧词及其后的两个溢出位置（即紧跟消歧点的两个单词，读者在此处通常持续完成重分析，加工困难依然存在）。

#### 自然故事。

为了评估相同度量在自然文本中跨越数千个单词位置的效果，我们使用了Natural Stories语料库（Futrell et al., 2018），该语料库包含10个自然叙事，总计约10,000个单词。来自181名参与者的自定步速阅读时间被收集，经过滤至100-3000毫秒后，共获得845,479个观测值。我们将每个故事以重叠块的形式输入GPT-2，以适配模型1024词元的上下文限制，在每个单词位置计算隐藏状态和惊讶值。

### 2.2 轨迹外推误差

#### 定义。

设\(h_t\)表示Transformer语言模型某一层在单词位置\(t\)处的隐藏状态向量。对于大小为\(k\)的窗口，我们通过普通最小二乘法拟合一条线性轨迹到位置\(t-k\)到\(t-1\)的隐藏状态。在下一个时间步长的外推位置是时间\(k\)处的线性预测，而轨迹外推误差定义为外推位置与实际隐藏状态之间的欧几里得距离（见图1的示意说明）。这个量度量了表示落点与它本来的方向（鉴于前序\(k\)个单词建立的轨迹）之间的差距。

图1：轨迹外推误差示意说明。每个点\(h_t\)代表单词位置\(t\)处模型的隐藏状态向量，为可视化投影到二维主成分空间。拟合一条线性轨迹到前序\(k\)个位置（此处\(k=3\)：\(h_{t-3}\)至\(h_{t-1}\)）的隐藏状态，并外推一步以产生预测位置（空心圆，\(\hat{h}_t\)）。轨迹外推误差是该预测位置与实际隐藏状态\(h_t\)之间的欧几里得距离。

语言模型隐藏状态中的轨迹动态预测人类处理成本超越惊讶度

相似文章

ExTra：面向语言模型强化学习的探索性轨迹优化

预测阅读时间的探针研究

探究隐式潜在轨迹偏移：通过长篇幅连贯上下文绕过对齐

幻觉作为轨迹承诺：Transformer生成中非对称吸引子动力学的因果证据

HyperLens：利用细粒度置信度轨迹量化大型语言模型的认知努力

提交意见反馈