使用语言模型嵌入对自定步速阅读中的语义关联进行建模
摘要
本研究使用语言模型嵌入来量化自定步速阅读和脑电图数据中的语义关联,探讨不同实现方式如何影响阅读难度的测量指标。
arXiv:2606.07066v1 公告类型:新
摘要:词语与其上下文之间的语义关联已被认为是阅读理解的重要组成部分,即使在考虑词可预测性后也是如此。近期研究凸显了语言模型(LM)嵌入在量化语义关联方面的潜力。然而,基于嵌入的语义关联已通过多种方式实现操作化。在本研究中,我们使用语言模型的嵌入来估计联合脑电图(EEG)和自然荷兰语文本自定步速阅读语料中的语义关联。语义关联通过十种不同的实现方式计算,这些方式在嵌入模型和上下文长度上有所变化。通过贝叶斯分层模型和贝叶斯因子,我们检验了不同实现方式中语义关联对N400和自定步速阅读时间的影响。结果表明,嵌入模型的选择会改变语义关联对N400和自定步速阅读时间的估计效应。此外,结果还展示了句子嵌入在捕捉语义关联方面的潜力,因为只有依赖句子嵌入的实现方式在神经和行为测量上显示出超越词可预测性的可靠语义关联结果。综上所述,这些发现强调了在量化语义关联时方法选择的重要性。
查看缓存全文
缓存时间: 2026/06/08 09:21
# 使用语言模型嵌入建模自定步速阅读中的语义关联 来源:https://arxiv.org/html/2606.07066 ###### 摘要 语义关联——即一个词与其上下文之间的语义相关程度——已被认定为阅读理解的重要组成部分,即使是在考虑了单词可预测性之后也是如此。近期研究凸显了语言模型(LM)嵌入在量化语义关联方面的潜力。然而,基于嵌入的语义关联操作化方式多种多样。在本研究中,我们使用来自LM的嵌入来估计一份联合脑电图(EEG)和自然荷兰语文本自定步速阅读语料库中的语义关联。语义关联通过十种不同的实现方式计算,这些方式在嵌入模型和上下文长度上有所变化。我们使用贝叶斯层次模型和贝叶斯因子检验了不同实现方式下语义关联对N400和自定步速阅读时间的影响。结果表明,嵌入模型的选择可以改变语义关联对N400和自定步速阅读时间的估计效应。此外,结果展示了句子嵌入在捕捉语义关联方面的潜力,因为只有依赖句子嵌入的实现方式在超越单词可预测性的条件下,在神经和行为测量上都显示出语义关联的可靠结果。这些发现共同凸显了量化语义关联时方法论选择的重要性。 关键词:语义关联,自定步速阅读(SPR),脑电图(EEG),N400,句子加工 \NAT@set@cites 使用语言模型嵌入建模自定步速阅读中的语义关联 Sara Møller Østergaard∗, Kenneth Enevoldsen†, Afra Alishahi∗, and Bruno Nicenboim∗∗蒂尔堡大学计算认知科学系, †奥尔胡斯大学人文学科计算中心, [email protected] 摘要内容 ## 1. 引言 人类在呈现单词的上下文中处理单词。一个词在其前文语境中的可预测性在很大程度上影响该词的处理难度(Kutas and Federmeier,2011 (https://arxiv.org/html/2606.07066#bib.bib11);Ehrlich and Rayner,1981 (https://arxiv.org/html/2606.07066#bib.bib21);Wong et al.,2024 (https://arxiv.org/html/2606.07066#bib.bib29))。例如,在句子对“到一天结束时,徒步者的脚极度寒冷潮湿。这是他最后一次买一双便宜的靴子/牛仔裤。”中,最后一个词“靴子”基于前文语境高度可预测,因此比另一结尾“牛仔裤”更容易处理,后者在此语境中相对不可预测(例子来自Federmeier and Kutas,1999 (https://arxiv.org/html/2606.07066#bib.bib1))。 单词的可预测性,即其在给定语境下的概率,已通过一系列概率模型进行估计,包括概率语法(Hale,2001 (https://arxiv.org/html/2606.07066#bib.bib12))以及更近期的来自LM的下一个词概率(Michaelov and Bergen,2024 (https://arxiv.org/html/2606.07066#bib.bib4);Michaelov et al.,2024 (https://arxiv.org/html/2606.07066#bib.bib5);Frank,2017 (https://arxiv.org/html/2606.07066#bib.bib9);Xu et al.,2024 (https://arxiv.org/html/2606.07066#bib.bib6);Frank et al.,2015 (https://arxiv.org/html/2606.07066#bib.bib18);Frank and Aumeistere,2024 (https://arxiv.org/html/2606.07066#bib.bib19);Pimentel et al.,2023 (https://arxiv.org/html/2606.07066#bib.bib20))。此外,单词可预测性也通过完形填空任务111完形填空是一种语言理解任务,其中文本中的一个或多个单词被删除,参与者必须根据语境线索填入。(Luke and Christianson,2018 (https://arxiv.org/html/2606.07066#bib.bib49);Dambacher et al.,2006 (https://arxiv.org/html/2606.07066#bib.bib50);Bulkes et al.,2020 (https://arxiv.org/html/2606.07066#bib.bib48))进行估计。 单词可预测性能够解释处理难度的重要方面,但并不能提供完整的解释。除了可预测性,语义关联是另一个调节阅读理解的因子(Kutas and Federmeier,2011 (https://arxiv.org/html/2606.07066#bib.bib11);Brouwer et al.,2012 (https://arxiv.org/html/2606.07066#bib.bib47))。语义关联指的是目标词与其呈现语境之间的语义相关程度。虽然这一测量与单词的可预测性相关,但它具有独特的属性。使用上述语境例子,“到一天结束时,徒步者的脚极度寒冷潮湿。这是他最后一次买一双便宜的凉鞋。”,单词“凉鞋”在此语境中不可预测,但它与语境(提到了脚)在语义上相关联。Federmeier and Kutas (1999 (https://arxiv.org/html/2606.07066#bib.bib1)) 表明这种区别导致对这些目标词的不同加工。 语义幻觉已被用于研究超越单词可预测性的语义关联效应。语义幻觉是指不可预测(或不正确)的词因为与语境在语义上相关联而暂时未被注意到的现象。句子“早餐时,鸡蛋只会吃吐司和果酱。”说明了这一效应,其中单词“吃”未能引发对不可预测词预期的神经反应(Kuperberg et al.,2003 (https://arxiv.org/html/2606.07066#bib.bib16))。关于语义幻觉的研究报告指出,与其语境语义关联的词(如脑电图所示)与缺乏这种关联的词相比,被加工得有所不同(Kuperberg et al.,2003 (https://arxiv.org/html/2606.07066#bib.bib16);Nieuwland and Van Berkum,2005 (https://arxiv.org/html/2606.07066#bib.bib45);Stone and Rabovsky,2025 (https://arxiv.org/html/2606.07066#bib.bib23);Aurnhammer et al.,2023 (https://arxiv.org/html/2606.07066#bib.bib46))。相关地,Krieger et al. (2024 (https://arxiv.org/html/2606.07066#bib.bib15)) 发现来自LM的单词可预测性并不能完全捕捉上下文信息在人类句子加工中的作用,特别是在语义关联方面。 加工难度通常使用行为测量(如阅读时间)以及源自EEG的神经测量(包括N400和P600事件相关电位(ERP)成分)来索引。单词可预测性已被证明对阅读时间和N400具有稳健效应(Kutas and Federmeier,2011 (https://arxiv.org/html/2606.07066#bib.bib11);Ehrlich and Rayner,1981 (https://arxiv.org/html/2606.07066#bib.bib21);Frank et al.,2015 (https://arxiv.org/html/2606.07066#bib.bib18);Shain,2024 (https://arxiv.org/html/2606.07066#bib.bib22);Pimentel et al.,2023 (https://arxiv.org/html/2606.07066#bib.bib20);Frank and Aumeistere,2024 (https://arxiv.org/html/2606.07066#bib.bib19);Federmeier and Kutas,1999 (https://arxiv.org/html/2606.07066#bib.bib1))。相比之下,目标词与其语境之间的语义关联主要在ERP研究中得到探讨,而考察其与阅读时间关系的研究较少。 \\Ac 语义关联的ERP研究大多聚焦于N400成分,其中语义关联降低了该成分的负性幅度(Fischler et al.,1983 (https://arxiv.org/html/2606.07066#bib.bib14);Kuperberg et al.,2003 (https://arxiv.org/html/2606.07066#bib.bib16);Federmeier and Kutas,1999 (https://arxiv.org/html/2606.07066#bib.bib1);Xu et al.,2024 (https://arxiv.org/html/2606.07066#bib.bib6);Broderick et al.,2018 (https://arxiv.org/html/2606.07066#bib.bib8);Frank and Willems,2017 (https://arxiv.org/html/2606.07066#bib.bib17))。然而,研究发现当语义相关语境与关键词之间存在延迟时,语义关联对N400的效应消失(Chow et al.,2018 (https://arxiv.org/html/2606.07066#bib.bib24);Stone and Rabovsky,2025 (https://arxiv.org/html/2606.07066#bib.bib23))。此外,Salicchi and Hsu (2025 (https://arxiv.org/html/2606.07066#bib.bib43)) 发现当控制了惊讶度时,语义关联并不能解释N400成分的方差,但能解释P600成分的方差,表明其对后期加工阶段的影响。关于其对阅读时间效应的证据较少。虽然一些研究发现更强的语义关联会减少阅读时间(Pynte et al.,2008 (https://arxiv.org/html/2606.07066#bib.bib25);Mitchell et al.,2010 (https://arxiv.org/html/2606.07066#bib.bib26)),但其他研究表明,当排除单词可预测性解释的方差后,语义关联对阅读时间没有影响(Traxler et al.,2000 (https://arxiv.org/html/2606.07066#bib.bib27);Frank,2017 (https://arxiv.org/html/2606.07066#bib.bib9))。 语义关联的研究大多依赖于由手工构建的语境和目标词组成的刺激材料,这些词要么语义相似要么不相似(Federmeier and Kutas,1999 (https://arxiv.org/html/2606.07066#bib.bib1);Fischler et al.,1983 (https://arxiv.org/html/2606.07066#bib.bib14);Kuperberg et al.,2003 (https://arxiv.org/html/2606.07066#bib.bib16);Stone and Rabovsky,2025 (https://arxiv.org/html/2606.07066#bib.bib23))。然而,近期研究尝试使用来自LM的嵌入来估计语义关联(Broderick et al.,2018 (https://arxiv.org/html/2606.07066#bib.bib8);Ettinger et al.,2016 (https://arxiv.org/html/2606.07066#bib.bib10);Xu et al.,2024 (https://arxiv.org/html/2606.07066#bib.bib6);Michaelov et al.,2024 (https://arxiv.org/html/2606.07066#bib.bib5);Frank,2017 (https://arxiv.org/html/2606.07066#bib.bib9);Michaelov and Bergen,2024 (https://arxiv.org/html/2606.07066#bib.bib4);Frank and Willems,2017 (https://arxiv.org/html/2606.07066#bib.bib17);Parviz et al.,2011 (https://arxiv.org/html/2606.07066#bib.bib36))。因此,这使得语义关联能够被量化为连续测量,并促进可以扩展到自然刺激的分析。 基于嵌入的语义关联估计有多种概念化方式。首先,不同的研究使用不同的嵌入模型来提取语境和关键词的嵌入。大多数研究使用词嵌入,例如GloVe、word2vec或fastText(Broderick et al.,2018 (https://arxiv.org/html/2606.07066#bib.bib8);Ettinger et al.,2016 (https://arxiv.org/html/2606.07066#bib.bib10);Xu et al.,2024 (https://arxiv.org/html/2606.07066#bib.bib6);Michaelov et al.,2024 (https://arxiv.org/html/2606.07066#bib.bib5);Frank,2017 (https://arxiv.org/html/2606.07066#bib.bib9);Michaelov and Bergen,2024 (https://arxiv.org/html/2606.07066#bib.bib4);Frank and Willems,2017 (https://arxiv.org/html/2606.07066#bib.bib17)),然而这些模型在架构、嵌入大小和训练数据上各不相同。其次,语境嵌入的定义方式多种多样。最常用的是词嵌入的平均值,但平均值中包含哪些词有所不同:一些研究使用语境中的所有词(Michaelov and Bergen,2024 (https://arxiv.org/html/2606.07066#bib.bib4);Michaelov et al.,2024 (https://arxiv.org/html/2606.07066#bib.bib5);Xu et al.,2024 (https://arxiv.org/html/2606.07066#bib.bib6);Broderick et al.,2018 (https://arxiv.org/html/2606.07066#bib.bib8)),其他研究只使用实义词(Mechtenberg et al.,2025 (https://arxiv.org/html/2606.07066#bib.bib3);Frank and Willems,2017 (https://arxiv.org/html/2606.07066#bib.bib17))或手动选定的词子集(Frank,2017 (https://arxiv.org/html/2606.07066#bib.bib9);Ettinger et al.,2016 (https://arxiv.org/html/2606.07066#bib.bib10))。此外,语境长度也各不相同。虽然大多数研究依赖于句子层面的刺激并使用所有前文词作为语境,但其他依赖由较长文本组成的刺激的研究定义了语境窗口。Frank (2017 (https://arxiv.org/html/2606.07066#bib.bib9)) 以两种不同方式定义了语境:i) 仅关键词前面的句子,ii) 紧接关键词之前的四个实义词。类似地,Mechtenberg et al. (2025 (https://arxiv.org/html/2606.07066#bib.bib3)) 通过定义关键词语境窗口(一个、两个、五个和十个前文词,排除停用词)来考察语义关联的局部和全局效应。最后,用于计算关键词语嵌入之间相似度的函数也有所不同:绝大多数使用余弦相似度(Ettinger et al.,2016 (https://arxiv.org/html/2606.07066#bib.bib10);Xu et al.,2024 (https://arxiv.org/html/2606.07066#bib.bib6);Michaelov et al.,2024 (https://arxiv.org/html/2606.07066#bib.bib5);Frank,2017 (https://arxiv.org/html/2606.07066#bib.bib9);Michaelov and Bergen,2024 (https://arxiv.org/html/2606.07066#bib.bib4)),Pearson相关性也曾被使用(例如Broderick et al.,2018 (https://arxiv.org/html/2606.07066#bib.bib8))。 本研究调查了来自LM嵌入的语义关联是否能够捕捉单靠单词可预测性无法解释的语言加工方面。为了容纳语义关联的不同形式化,我们定义了多种实现方式,在嵌入模型和用于计算语义关联的语境窗口大小上有所变化。我们使用贝叶斯模型比较(贝叶斯因子)评估这些实现方式,并考察它们对自定步速阅读时间和N400 ERP成分的影响。研究结果显示了嵌入模型的选择以及语境的 conceptualization如何能够在神经和行为信号上改变结论。 ## 2. 方法 ### 2.1. 数据 本研究使用了蒂尔堡自然荷兰语文本语料库(TiNT;Østergaard et al.,2025 (https://arxiv.org/html/2606.07066#bib.bib51))。该语料库包含来自71名参与者(其中56名参与者被纳入当前研究的分析)的EEG和SPR联合记录。所有参与者阅读了八篇中等长度(约600词)的不同体裁的自然荷兰语文本。其中七篇文本采用SPR范式阅读,一篇文本采用快速序列视觉呈现(RSVP)范式阅读(具体文本因参与者而异)。在本研究中,我们仅使用在SPR期间记录的数据。 EEG信号的预处理和ERP的提取与Østergaard et al. (2025 (https://arxiv.org/html/2606.07066#bib.bib51)) 相同。预处理包括电极的重新参考、带通滤波以及伪迹检测和排除。N400定义为词呈现后300-500毫秒时间窗内中央顶叶电极的平均幅度。 ### 2.2. 语义关联 语义关联定义为语境嵌入与关键词语嵌入之间的相似度。因此,需要做出三个方法论决策:(1) 如何表示语境和关键词语的嵌入,(2) 使用何种语境长度,(3) 应用何种相似函数。在本文中,我们通过改变前两个因素定义了语义关联的多种实现方式,同时在所有实现中使用余弦相似度作为相似度度量。之所以使用余弦相似度,是因为它是分布式嵌入模型的标准相似度度量(Yamada et al.,2020 (https://arxiv.org/html/2606.07066#bib.bib31);Reimers and Gurevych,2019 (ht
相似文章
预测阅读时间的探针研究
研究者通过探针语言模型表征,在五种语言中预测人类阅读时间,发现早期层在早期眼动指标上优于惊讶度,而惊讶度在晚期指标上仍占上风。
利用语言模型的稀疏特征解读大脑对语言的反应
本文介绍了Augmented Sparse Encoding Models,利用语言模型的稀疏特征解读大脑对语言的反应,并在高场7T fMRI数据上进行了验证。该模型恢复了已知的神经调谐特性,并发现了一个新的体素群体,该群体对与人相关的内容具有调谐特性。
解构并引导大型语言模型中的功能性元认知
本研究探讨了大型语言模型中的功能性元认知,证明诸如评估意识和自我评估能力等内部状态可以从残差流激活中线性解码。作者提出了一个机械机制框架来引导这些状态,展示了对推理行为、冗长度及安全响应的因果控制。
回音放大知识:通过情感向量重新注入在语言模型中构建躯体标记模拟物
本预印本介绍了一种将情感向量注入语言模型以模拟躯体标记的方法,旨在弥合语义记忆与情景记忆之间的差距。作者证明,将情感回音与语义知识相结合可以提升决策能力,从而复现了人类认知科学中的相关发现。
跨语言模型架构的神经激活模式:认知任务性能的综合分析
本文分析了六种LLM架构在认知任务上的神经激活模式,揭示了编码器和解码器模型在注意力熵和稀疏性上的差异。