为什么语言模型比人类更不惊讶?测试解析多重性不匹配假说
摘要
本文测试了解析多重性不匹配假说,该假说认为语言模型之所以低估了人类在花园路径句中的处理困难,是因为它们能同时考虑更多的句法解析。通过使用带束搜索的循环神经网络语法(RNNGs),研究者发现减少活跃解析的数量会增大预测的花园路径效应,但远远不足以完全捕捉人类数据。
arXiv:2605.15440v1 公告类型:新
摘要:惊奇度(Surprisal)理论认为,一个词的处理难度取决于其在上下文中的可预测性,这为人类句子处理与语言模型的下一个词预测提供了潜在联系。虽然语言模型(LM)的惊奇度成功预测了自然文本中的阅读时间,但它们系统性地低估了在受控句法歧义研究中观察到的困难程度,尤其是在花园路径句中。这种不匹配可能源于人类和语言模型在计算约束上的差异。本文测试了其中一种假说,具体而言,语言模型可能比人类能同时考虑更多不同的句子解释。我们使用带有词同步束搜索的循环神经网络语法(RNNGs),系统性地改变用于计算词惊奇度的同时解析数量,然后用这些惊奇度来预测人类的阅读时间。减少同时活跃的解析数量确实增加了预测的花园路径效应幅度,但远远不足以捕捉人类效应中的全部幅度。这表明,语言模型和人类在同时解析数量上的差异无法调和基于LM的惊奇度与人类句子处理之间的差距。
查看缓存全文
缓存时间: 2026/05/18 06:31
# 为什么语言模型比人类更不容易感到惊讶?测试解析多样度不匹配假说 来源:https://arxiv.org/html/2605.15440 11footnotetext:纽约大学语言学系,美国纽约市华盛顿广场10号,邮编10003 22footnotetext:纽约大学数据科学中心,美国纽约市第五大道60号,邮编10011 33footnotetext:马萨诸塞大学阿默斯特分校语言学系,美国马萨诸塞州阿默斯特市北欢乐街650号,邮编01002 11footnotetext:通讯作者:wpt2011@nyu\.edu(2026年5月) ## 摘要 惊讶度理论认为,一个词的处理难度由其在上文中的可预测性决定,这为人类句子处理与语言模型的下一词预测之间提供了潜在联系。虽然语言模型(LM)的惊讶度能成功预测自然文本中的阅读时间,但在句法歧义的受控研究中,特别是在花园路径句中,它们系统性地低估了所观察到的处理难度。这种不匹配可能源于人类与LM在计算约束上的差异。本文测试了其中一个假设,即:与人类相比,LM可能能够同时考虑更多的不同句子解释。通过使用具有词同步束搜索的循环神经网络文法(RNNG),我们系统地改变用于计算词惊讶度的同时解析数量,然后用这些惊讶度预测人类阅读时间。减少同时活跃解析的数量确实会增加预测的花园路径效应幅度,但远不足以捕捉人类效应的完整幅度。这表明,LM与人类在可用同时解析数量上的差异,无法调和基于LM的惊讶度与人类句子处理之间的分歧。 ## 致谢 感谢朱清扬以及纽约大学计算与心理语言学实验室成员提供的深刻反馈和讨论。本项目得到美国国家科学基金会(NSF)资助,项目编号为BCS-2020914、BCS-2020945、IIS-2504953和IIS-2504954。本工作部分得到了纽约大学IT高性能计算资源、服务和专业人员的支持。B.D.还得到了马萨诸塞大学阿默斯特分校Samuel F. Conti奖学金的资助。 ## 1 引言 预测被广泛视为人类认知(尤其是语言)的一个核心组织原则。近年大型语言模型的成功暗示了这种可能性,它们通过简单的下一词预测目标展现了卓越的语言理解能力。这类模型的出现促使许多心理语言学家思考:这些模型是否能作为人类逐词句子处理难度的认知模型(Frank等,2019;Linzen和Baroni,2021;Engelmann等,2009;Arehalli和Linzen,2024;Schrimpf等,2021;Caucheteux和King,2022;Goldstein等,2022)。评估这种可能性需要一个连接假说,将语言模型(LM)的某种度量与人类逐词处理难度的行为度量联系起来。惊讶度理论(Hale,2001;Levy,2008)提供了这样一个连接假说,该理论认为,句子中每个词的处理难度——例如,读者注视该词所花费的时间——与该词在上文中的惊讶度(即其负对数概率)成正比。该理论的强版本声称,所有处理困难来源——暂时歧义、句法复杂性、词频——都可以归结为词惊讶度。这一假说可以有效地与LM联系起来:如果我们能找到这样一个LM,其惊讶度估计能够一贯地解释阅读困难,那么这将表明惊讶度理论在Marr的计算层面上良好地刻画了句子理解(Marr,1982),并且进一步表明,LM预测背后的表征和约束可能与人类相同过程的表征和约束具有相似性(例如,Hale等,2018;Ryu和Lewis,2025)。 在实证上,LM惊讶度在预测人类阅读行为方面取得了好坏参半的结果。在自然文本上,LM惊讶度与人类阅读时间之间存在稳健的相关性(Smith和Levy,2013;Wilcox等,2020;Shain等,2024),并且跨语言也是如此(Wilcox等,2023)。但仅靠相关性研究不足以确立惊讶度理论作为处理困难一般理论的效度,而在那些旨在仲裁句子处理理论之间争议的受控实验中,LM惊讶度在预测人类阅读行为方面表现较差(slaats2026more)。LM与人类之间的错位在花园路径句中尤为显著——这些句子暂时歧义,最初偏向一种解释,但最终被消歧为一种非首选解释(图1上方)(van Schijndel和Linzen,2021;Wilcox等,2021;Arehalli等,2022;kobzeva2024grammar;Huang等,2024)。 花园路径句长期以来一直是理解理解者如何在线处理语言歧义这一普遍问题的关键测试平台。例如,考虑以“The girl fed the lamb...”开头的语句。这个语句至少有两种解释:一种首选解释,即女孩在喂羊羔;一种非首选解释,即羊羔在喂女孩。当句子被消歧为支持这种非首选解释时(例如,如果后续接的是“...was upset because she asked for beef.”,这在最初的首选解读下是不合语法的,而在最初的非首选解读下则是完全合语法的),读者会经历显著的处理困难。这种消歧成本可以通过比较在暂时歧义句(1)中从消歧词“was”开始的阅读时间与在无歧义控制句(2)中相同词上的阅读时间来分离。两种条件之间的阅读时间差异称为花园路径效应: 1. (1) The girl fed the lamb was upset because she asked for beef. (暂时歧义) 2. (2) The girl who was fed the lamb was upset because she asked for beef. (无歧义) 在一项自定步速阅读实验中,Huang等人(2024)显示,在这种结构中的整个消歧区域(消歧词及其后两个词——一个词造成的困难常常也会体现在后面的词上)在歧义条件下比在无歧义条件下多花费超过300毫秒来阅读。LM已被证明能预测这些花园路径效应的方向:例如,GPT-2语言模型(radford2019language)估计,对于这种结构,消歧区域在歧义条件下的平均惊讶度比无歧义条件高约4比特(Huang等,2024)。然而,这种惊讶度差异未能解释效应的完整幅度。简化为建模细节,Huang等人(2024)估计,GPT-2惊讶度每增加1比特,阅读时间大约增加2毫秒。如果像惊讶度理论所主张的那样,假设这种关系在花园路径句中也成立,那么GPT-2惊讶度仅预测约8毫秒的花园路径效应(4比特 × 2毫秒/比特),比经验观测到的效应小近40倍(Huang等,2024)。这意味着花园路径效应不能归结为任何已测试语言模型在惊讶度上的差异。在一项独立研究中,Timkey等人(2025)显示,这种模式在多种LM架构、训练目标和训练语料库中都成立。 LM与人类之间的这些错位至少有两个逻辑上可能的原因。一种可能是惊讶度理论有误,一个词的处理难度不能完全归结为其可预测性。另一种可能——也是本工作的焦点——是惊讶度理论大体正确,但LM和人类在对后续词的预期上存在系统性分歧,因为人类比LM受到更多的计算约束。如果是这样,通过施加更类似人类资源约束于LM,可以改善人类行为与LM下一词预测之间的一致性(Timkey和Linzen,2023;Clark等,2025;Oh和Linzen,2025)。 在本工作中,我们研究了人类与LM在花园路径句中的差距是否可能由其解析多样度的差异来解释:即可以同时在记忆中维持的语句的不同解释(此处指不同的句法解析)的数量。我们称这一假设为**解析多样度不匹配假说**。具体而言,我们预期,随着可以同时考虑的解释数量减少,花园路径效应的幅度会增加。例如,如果理解者必须只承诺于“the girl fed the lamb”这个语句的一种解释,他们很可能会承诺于更常见的解释——女孩在喂羊羔。在这种解释下,消歧后续词“was”不仅出乎意料,甚至可能不合语法(比较“The girl gave the lamb was upset...”)。相反,当生成对下一个词的预期时同时考虑更多解释,则至少有一种解释是全局正确解释的概率就会增加。在全局正确解释下(羊羔在喂女孩),“was”是一个合乎语法、可预测的后续词(比较“The girl given the lamb was upset...”)。这增加了词“was”的整体可预测性,从而减小了花园路径效应的幅度(图1下方)。 人类和LM的解析多样度程度仍未得到很好理解。在人类中,这一直是几十年来争论的主要话题(boland1996interaction;Gibson和Pearlmutter,2000;Lewis,2000;clifton2008parallelism)。一些增量解析模型假设完全串行架构,即一次只维持一个解析(例如,Frazier和Fodor,1978;marcus1978theory;Frazier,1987;gorrell1995syntax;pritchett1988garden;Lewis,1998,1999;van2005evidence;Lewis和Vasishth,2005),而其他模型则认为多个不同的句法假设可以并行维持(例如,Gibson,1991;Hale,2001;Levy,2008;Trueswell和Tanenhaus,1994)。Jurafsky(1996)明确主张花园路径效应源于人类解析多样度的固定限制,并将该限制视为解析模型的自由参数,通过阅读数据来估计(另见Boston等,2011)。相比之下,证据表明,通常不设计显式句法表征的LM,却能够隐式地表征和并行维持一个句子的多个句法解析(Aina和Linzen,2021;Eisape等,2022;Hanna和Mueller,2024)。从数学上讲,LM对句子下一词概率分布的准确近似能力应随解析多样度的增加而严格提升:下一词概率的最准确估计来自隐式或显式地对句子所有可能解析进行边缘化——即,将每个解析下下一词的概率按解析概率加权平均。 如果LM确实比人类具有更大的解析多样度,那么降低它们的解析多样度应该会使它们在花园路径句中的预测更接近人类。评估解析多样度不匹配假说的一个挑战是,在最常用的LM(如GPT-2)中,无法直接操纵解析多样度,因为它们接受训练去预测下一词时仅依赖于先前的词。它们拥有的任何句法表征都是涌现和隐式的,这使得既难以理解LM正在考虑哪些解释,也难以干预这些隐式表征(但见Hanna和Mueller,2024)。这里,我们通过使用循环神经网络文法(RNNG;Dyer等,2016)来解决这个问题,这些模型接受训练以预测句子的单词和结构。这些模型将其下一词预测建立在上文显式句法解析的基础上。从这些模型中,我们可以使用束搜索算法的一种变体(下文将描述)推断前k个最可能的先前词的解析,然后通过对这k个解析进行边缘化来近似下一词惊讶度(图2)。在这种设置中,我们可以系统地改变k——用于估计下一词概率的解析数量——从而操纵模型在生成下一词预期时考虑的同时解析数量。我们假设,较小的k将导致较大的花园路径效应(图1下方)。然后,我们测试这些不同k值下的惊讶度在多大程度上解释了来自Huang等人(2024)的花园路径数据中的阅读时间模式。如果解析多样度不匹配假说成立,那么较小k值下的惊讶度应比默认情况下(即边缘化所有解析)下的惊讶度提供更好的拟合。 然而,我们发现,虽然降低k确实增加了预测的花园路径效应幅度,但即使k值非常小(包括k=1的纯串行模式),所预测的效应也远远小于人类观测到的效应。我们的结论是,人类与LM在同时解析数量上的差异不太可能解释LM惊讶度预测与人类花园路径效应之间的差距。这为未来工作留下了两种可能性:要么惊讶度理论作为处理困难的完整解释是错误的,要么还存在LM与人类之间其他重要的计算差异(例如工作记忆、处理时间或噪声)在弥补差距方面起着更关键的作用。 (图1和2的说明文字在原文中,需保留并翻译。由于未提供具体图表,这里仅翻译说明文字对应的部分,但根据上下文,图1和2应在原文中有标注。按指令,保留所有标记。) **图1:** 花园路径效应的示意说明。**上方:** 句子“The girl fed the lamb was upset...”可以被解析为两种结构。在首选解析中,“fed”是主要动词;“was”的持续是意外的,引起处理困难。在非首选解析中,“fed”是分词;“was”的持续是预期的。“was”在两种解析下的概率不同。LM预测的惊讶度是在边际化所有解析后获得的概率,这可能导致对“was”的惊讶度低估,从而低估处理困难。**下方:** 解析多样度假说。随着可用解析数量减少,模型越来越依赖首选解析,因此对意外持续(如“was”)的惊讶度增加。 **图2:** 使用词同步束搜索的RNNG生成过程示意。在每个位置\(t\),模型基于前k个最可能的部分句子解析(包括词和结构)生成对位置t的下一词预测。通过这k个解析对下一词概率进行边际化,得到单词\(w_t\)的惊讶度。调整k控制模型可用的同时解析数量。
相似文章
自然理解过程中语言模型的异质性神经预测性
本文研究了在自然语言理解过程中,语言模型表示如何预测MEG、ECoG等记录中的神经活动。研究结果表明,语言模型特征可作为有用的神经预测因子,但需谨慎避免将预测成功过度解读为共享神经组织的证据。
基础模型被AI检测器视为人类
这篇论文揭示,GPTZero和Pangram等商用AI检测器将基础语言模型生成的文本判定为几乎完全是人类撰写,而经过指令微调的模型输出则被标记为AI生成。作者提出了HIP,一种与检测器无关的迭代改写流程,能在保持语义的同时提升文本的类人性。
预测阅读时间的探针研究
研究者通过探针语言模型表征,在五种语言中预测人类阅读时间,发现早期层在早期眼动指标上优于惊讶度,而惊讶度在晚期指标上仍占上风。
基础模型在AI检测器中像人类
一项研究发现,基础语言模型在AI检测器中看起来像是人类写的,而经过指令微调的模型则不然。作者提出了一种名为HIP的改写管道,该管道能在不同模型规模下提高文本的人类相似度,同时保持语义。
语言模型知道不该说什么吗?LLMs中统计抢占的因果证据
本文提供了因果证据,表明大型语言模型通过微调操纵竞争形式频率,能够获得统计抢占(构式语法中的一种机制)所涉及的负面语言知识(即不该说什么),且行为变化符合预测方向。