为什么语言模型比人类更不惊讶?测试解析多重性不匹配假说

arXiv cs.CL 论文

摘要

本文测试了解析多重性不匹配假说,该假说认为语言模型之所以低估了人类在花园路径句中的处理困难,是因为它们能同时考虑更多的句法解析。通过使用带束搜索的循环神经网络语法(RNNGs),研究者发现减少活跃解析的数量会增大预测的花园路径效应,但远远不足以完全捕捉人类数据。

arXiv:2605.15440v1 公告类型:新 摘要:惊奇度(Surprisal)理论认为,一个词的处理难度取决于其在上下文中的可预测性,这为人类句子处理与语言模型的下一个词预测提供了潜在联系。虽然语言模型(LM)的惊奇度成功预测了自然文本中的阅读时间,但它们系统性地低估了在受控句法歧义研究中观察到的困难程度,尤其是在花园路径句中。这种不匹配可能源于人类和语言模型在计算约束上的差异。本文测试了其中一种假说,具体而言,语言模型可能比人类能同时考虑更多不同的句子解释。我们使用带有词同步束搜索的循环神经网络语法(RNNGs),系统性地改变用于计算词惊奇度的同时解析数量,然后用这些惊奇度来预测人类的阅读时间。减少同时活跃的解析数量确实增加了预测的花园路径效应幅度,但远远不足以捕捉人类效应中的全部幅度。这表明,语言模型和人类在同时解析数量上的差异无法调和基于LM的惊奇度与人类句子处理之间的差距。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:31

# 为什么语言模型比人类更不容易感到惊讶?测试解析多样度不匹配假说  
来源:https://arxiv.org/html/2605.15440  

11footnotetext:纽约大学语言学系,美国纽约市华盛顿广场10号,邮编10003  
22footnotetext:纽约大学数据科学中心,美国纽约市第五大道60号,邮编10011  
33footnotetext:马萨诸塞大学阿默斯特分校语言学系,美国马萨诸塞州阿默斯特市北欢乐街650号,邮编01002  
11footnotetext:通讯作者:wpt2011@nyu\.edu(2026年5月)

## 摘要  
惊讶度理论认为,一个词的处理难度由其在上文中的可预测性决定,这为人类句子处理与语言模型的下一词预测之间提供了潜在联系。虽然语言模型(LM)的惊讶度能成功预测自然文本中的阅读时间,但在句法歧义的受控研究中,特别是在花园路径句中,它们系统性地低估了所观察到的处理难度。这种不匹配可能源于人类与LM在计算约束上的差异。本文测试了其中一个假设,即:与人类相比,LM可能能够同时考虑更多的不同句子解释。通过使用具有词同步束搜索的循环神经网络文法(RNNG),我们系统地改变用于计算词惊讶度的同时解析数量,然后用这些惊讶度预测人类阅读时间。减少同时活跃解析的数量确实会增加预测的花园路径效应幅度,但远不足以捕捉人类效应的完整幅度。这表明,LM与人类在可用同时解析数量上的差异,无法调和基于LM的惊讶度与人类句子处理之间的分歧。

## 致谢  
感谢朱清扬以及纽约大学计算与心理语言学实验室成员提供的深刻反馈和讨论。本项目得到美国国家科学基金会(NSF)资助,项目编号为BCS-2020914、BCS-2020945、IIS-2504953和IIS-2504954。本工作部分得到了纽约大学IT高性能计算资源、服务和专业人员的支持。B.D.还得到了马萨诸塞大学阿默斯特分校Samuel F. Conti奖学金的资助。

## 1 引言  
预测被广泛视为人类认知(尤其是语言)的一个核心组织原则。近年大型语言模型的成功暗示了这种可能性,它们通过简单的下一词预测目标展现了卓越的语言理解能力。这类模型的出现促使许多心理语言学家思考:这些模型是否能作为人类逐词句子处理难度的认知模型(Frank等,2019;Linzen和Baroni,2021;Engelmann等,2009;Arehalli和Linzen,2024;Schrimpf等,2021;Caucheteux和King,2022;Goldstein等,2022)。评估这种可能性需要一个连接假说,将语言模型(LM)的某种度量与人类逐词处理难度的行为度量联系起来。惊讶度理论(Hale,2001;Levy,2008)提供了这样一个连接假说,该理论认为,句子中每个词的处理难度——例如,读者注视该词所花费的时间——与该词在上文中的惊讶度(即其负对数概率)成正比。该理论的强版本声称,所有处理困难来源——暂时歧义、句法复杂性、词频——都可以归结为词惊讶度。这一假说可以有效地与LM联系起来:如果我们能找到这样一个LM,其惊讶度估计能够一贯地解释阅读困难,那么这将表明惊讶度理论在Marr的计算层面上良好地刻画了句子理解(Marr,1982),并且进一步表明,LM预测背后的表征和约束可能与人类相同过程的表征和约束具有相似性(例如,Hale等,2018;Ryu和Lewis,2025)。  

在实证上,LM惊讶度在预测人类阅读行为方面取得了好坏参半的结果。在自然文本上,LM惊讶度与人类阅读时间之间存在稳健的相关性(Smith和Levy,2013;Wilcox等,2020;Shain等,2024),并且跨语言也是如此(Wilcox等,2023)。但仅靠相关性研究不足以确立惊讶度理论作为处理困难一般理论的效度,而在那些旨在仲裁句子处理理论之间争议的受控实验中,LM惊讶度在预测人类阅读行为方面表现较差(slaats2026more)。LM与人类之间的错位在花园路径句中尤为显著——这些句子暂时歧义,最初偏向一种解释,但最终被消歧为一种非首选解释(图1上方)(van Schijndel和Linzen,2021;Wilcox等,2021;Arehalli等,2022;kobzeva2024grammar;Huang等,2024)。  

花园路径句长期以来一直是理解理解者如何在线处理语言歧义这一普遍问题的关键测试平台。例如,考虑以“The girl fed the lamb...”开头的语句。这个语句至少有两种解释:一种首选解释,即女孩在喂羊羔;一种非首选解释,即羊羔在喂女孩。当句子被消歧为支持这种非首选解释时(例如,如果后续接的是“...was upset because she asked for beef.”,这在最初的首选解读下是不合语法的,而在最初的非首选解读下则是完全合语法的),读者会经历显著的处理困难。这种消歧成本可以通过比较在暂时歧义句(1)中从消歧词“was”开始的阅读时间与在无歧义控制句(2)中相同词上的阅读时间来分离。两种条件之间的阅读时间差异称为花园路径效应:  

1. (1) The girl fed the lamb was upset because she asked for beef. (暂时歧义)  
2. (2) The girl who was fed the lamb was upset because she asked for beef. (无歧义)  

在一项自定步速阅读实验中,Huang等人(2024)显示,在这种结构中的整个消歧区域(消歧词及其后两个词——一个词造成的困难常常也会体现在后面的词上)在歧义条件下比在无歧义条件下多花费超过300毫秒来阅读。LM已被证明能预测这些花园路径效应的方向:例如,GPT-2语言模型(radford2019language)估计,对于这种结构,消歧区域在歧义条件下的平均惊讶度比无歧义条件高约4比特(Huang等,2024)。然而,这种惊讶度差异未能解释效应的完整幅度。简化为建模细节,Huang等人(2024)估计,GPT-2惊讶度每增加1比特,阅读时间大约增加2毫秒。如果像惊讶度理论所主张的那样,假设这种关系在花园路径句中也成立,那么GPT-2惊讶度仅预测约8毫秒的花园路径效应(4比特 × 2毫秒/比特),比经验观测到的效应小近40倍(Huang等,2024)。这意味着花园路径效应不能归结为任何已测试语言模型在惊讶度上的差异。在一项独立研究中,Timkey等人(2025)显示,这种模式在多种LM架构、训练目标和训练语料库中都成立。  

LM与人类之间的这些错位至少有两个逻辑上可能的原因。一种可能是惊讶度理论有误,一个词的处理难度不能完全归结为其可预测性。另一种可能——也是本工作的焦点——是惊讶度理论大体正确,但LM和人类在对后续词的预期上存在系统性分歧,因为人类比LM受到更多的计算约束。如果是这样,通过施加更类似人类资源约束于LM,可以改善人类行为与LM下一词预测之间的一致性(Timkey和Linzen,2023;Clark等,2025;Oh和Linzen,2025)。  

在本工作中,我们研究了人类与LM在花园路径句中的差距是否可能由其解析多样度的差异来解释:即可以同时在记忆中维持的语句的不同解释(此处指不同的句法解析)的数量。我们称这一假设为**解析多样度不匹配假说**。具体而言,我们预期,随着可以同时考虑的解释数量减少,花园路径效应的幅度会增加。例如,如果理解者必须只承诺于“the girl fed the lamb”这个语句的一种解释,他们很可能会承诺于更常见的解释——女孩在喂羊羔。在这种解释下,消歧后续词“was”不仅出乎意料,甚至可能不合语法(比较“The girl gave the lamb was upset...”)。相反,当生成对下一个词的预期时同时考虑更多解释,则至少有一种解释是全局正确解释的概率就会增加。在全局正确解释下(羊羔在喂女孩),“was”是一个合乎语法、可预测的后续词(比较“The girl given the lamb was upset...”)。这增加了词“was”的整体可预测性,从而减小了花园路径效应的幅度(图1下方)。  

人类和LM的解析多样度程度仍未得到很好理解。在人类中,这一直是几十年来争论的主要话题(boland1996interaction;Gibson和Pearlmutter,2000;Lewis,2000;clifton2008parallelism)。一些增量解析模型假设完全串行架构,即一次只维持一个解析(例如,Frazier和Fodor,1978;marcus1978theory;Frazier,1987;gorrell1995syntax;pritchett1988garden;Lewis,1998,1999;van2005evidence;Lewis和Vasishth,2005),而其他模型则认为多个不同的句法假设可以并行维持(例如,Gibson,1991;Hale,2001;Levy,2008;Trueswell和Tanenhaus,1994)。Jurafsky(1996)明确主张花园路径效应源于人类解析多样度的固定限制,并将该限制视为解析模型的自由参数,通过阅读数据来估计(另见Boston等,2011)。相比之下,证据表明,通常不设计显式句法表征的LM,却能够隐式地表征和并行维持一个句子的多个句法解析(Aina和Linzen,2021;Eisape等,2022;Hanna和Mueller,2024)。从数学上讲,LM对句子下一词概率分布的准确近似能力应随解析多样度的增加而严格提升:下一词概率的最准确估计来自隐式或显式地对句子所有可能解析进行边缘化——即,将每个解析下下一词的概率按解析概率加权平均。  

如果LM确实比人类具有更大的解析多样度,那么降低它们的解析多样度应该会使它们在花园路径句中的预测更接近人类。评估解析多样度不匹配假说的一个挑战是,在最常用的LM(如GPT-2)中,无法直接操纵解析多样度,因为它们接受训练去预测下一词时仅依赖于先前的词。它们拥有的任何句法表征都是涌现和隐式的,这使得既难以理解LM正在考虑哪些解释,也难以干预这些隐式表征(但见Hanna和Mueller,2024)。这里,我们通过使用循环神经网络文法(RNNG;Dyer等,2016)来解决这个问题,这些模型接受训练以预测句子的单词和结构。这些模型将其下一词预测建立在上文显式句法解析的基础上。从这些模型中,我们可以使用束搜索算法的一种变体(下文将描述)推断前k个最可能的先前词的解析,然后通过对这k个解析进行边缘化来近似下一词惊讶度(图2)。在这种设置中,我们可以系统地改变k——用于估计下一词概率的解析数量——从而操纵模型在生成下一词预期时考虑的同时解析数量。我们假设,较小的k将导致较大的花园路径效应(图1下方)。然后,我们测试这些不同k值下的惊讶度在多大程度上解释了来自Huang等人(2024)的花园路径数据中的阅读时间模式。如果解析多样度不匹配假说成立,那么较小k值下的惊讶度应比默认情况下(即边缘化所有解析)下的惊讶度提供更好的拟合。  

然而,我们发现,虽然降低k确实增加了预测的花园路径效应幅度,但即使k值非常小(包括k=1的纯串行模式),所预测的效应也远远小于人类观测到的效应。我们的结论是,人类与LM在同时解析数量上的差异不太可能解释LM惊讶度预测与人类花园路径效应之间的差距。这为未来工作留下了两种可能性:要么惊讶度理论作为处理困难的完整解释是错误的,要么还存在LM与人类之间其他重要的计算差异(例如工作记忆、处理时间或噪声)在弥补差距方面起着更关键的作用。  

(图1和2的说明文字在原文中,需保留并翻译。由于未提供具体图表,这里仅翻译说明文字对应的部分,但根据上下文,图1和2应在原文中有标注。按指令,保留所有标记。)  

**图1:** 花园路径效应的示意说明。**上方:** 句子“The girl fed the lamb was upset...”可以被解析为两种结构。在首选解析中,“fed”是主要动词;“was”的持续是意外的,引起处理困难。在非首选解析中,“fed”是分词;“was”的持续是预期的。“was”在两种解析下的概率不同。LM预测的惊讶度是在边际化所有解析后获得的概率,这可能导致对“was”的惊讶度低估,从而低估处理困难。**下方:** 解析多样度假说。随着可用解析数量减少,模型越来越依赖首选解析,因此对意外持续(如“was”)的惊讶度增加。

**图2:** 使用词同步束搜索的RNNG生成过程示意。在每个位置\(t\),模型基于前k个最可能的部分句子解析(包括词和结构)生成对位置t的下一词预测。通过这k个解析对下一词概率进行边际化,得到单词\(w_t\)的惊讶度。调整k控制模型可用的同时解析数量。

相似文章

预测阅读时间的探针研究

arXiv cs.CL

研究者通过探针语言模型表征,在五种语言中预测人类阅读时间,发现早期层在早期眼动指标上优于惊讶度,而惊讶度在晚期指标上仍占上风。

为什么语言模型会产生幻觉

OpenAI Blog

OpenAI发布研究指出,语言模型产生幻觉的原因在于标准的训练和评估程序奖励猜测而不是承认不确定性,并建议评估指标应该优先考虑对局限性的诚实认识而不是原始准确率。

Brain Score 追踪语言的共享属性:来自多种自然语言和结构序列的证据

arXiv cs.CL

本文研究了 Brain Score(一个将语言模型表征与人类阅读时 fMRI 激活进行比较的指标)是否真正捕捉到类似人类的语言处理,或仅反映结构相似性。研究人员在多种自然语言和非语言结构数据(基因组、Python、嵌套括号)上训练语言模型,发现在不同语言和非语言序列上训练的模型达到相似的 Brain Score 性能,这表明该指标可能不足以区分人类特有的处理方式。

语言模型学习什么以及何时学习?隐性课程假设

Hugging Face Daily Papers

本文提出隐性课程假设,证明语言模型预训练遵循一个结构化的、组合性的课程,其中能力跨架构一致涌现,并可从内部表示预测。作者通过设计涵盖检索、形态学、共指消解、推理和数学的任务进行验证,发现四个模型族中涌现顺序高度一致(ρ=0.81)。

负面先于正面:大型语言模型中的不对称效价处理

arXiv cs.CL

本文通过机理可解释性研究大型语言模型如何处理情感效价。通过在三个开源LLMs上使用激活修补和引导,作者发现负面效价定位于早期层,而正面效价在中后期层达到峰值,并通过主题控制翻转测试验证了这一点。