预测阅读时间的探针研究

arXiv cs.CL 论文

摘要

研究者通过探针语言模型表征,在五种语言中预测人类阅读时间,发现早期层在早期眼动指标上优于惊讶度,而惊讶度在晚期指标上仍占上风。

arXiv:2604.18712v1 公告类型:新 摘要:探针研究已表明语言模型表征编码了丰富的语言信息,但其是否也捕捉到人脑加工的认知信号仍不清楚。本工作用探针方法从语言模型表征中预测人类阅读时间。我们在两个跨五种语言(英语、希腊语、希伯来语、俄语、土耳其语)的眼动语料库上,采用正则化线性回归,将每一模型层的表征与标量预测因子——惊讶度(surprisal)、信息价值(information value)及 logit-lens 惊讶度——进行对比。结果发现,早期层的表征在预测首次注视和凝视时长等早期眼动指标时优于惊讶度。这种预测力集中于早期层的现象表明,类人加工特征被低层结构或词汇表征捕获,暗示模型深度与人类阅读时间阶段存在功能对齐。相反,在总阅读时间等晚期指标上,标量惊讶度尽管是高度压缩的表征,却仍保持优势。我们还发现,同时使用惊讶度与早期层表征可进一步提升性能。总体而言,最佳预测因子因语言和眼动指标而异。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 08:29

# 用眼动数据探测阅读时间  
来源:https://arxiv.org/html/2604.18712  
###### 摘要  

探测研究已表明语言模型表示蕴含丰富语言信息,但它们是否也编码了人类加工过程中的认知信号仍不清楚。本工作用眼动数据探测语言模型表示,预测人类阅读时间。我们在五个语言(英语、希腊语、希伯来语、俄语、土耳其语)的两个眼动语料库上,用正则化线性回归比较每一层模型表示与三种标量预测因子——surprisal、信息值、logit-lens surprisal。结果显示,早期层表示在预测首次注视和凝视时长等早期指标上优于surprisal。预测力集中于浅层,暗示类人加工痕迹被低层结构或词汇表征捕获,模型深度与人类阅读时间阶段存在功能对齐。相反,对于总阅读时间等晚期指标,即使surprisal是高度压缩的表示,仍保持优势。将surprisal与早期层表示结合也能进一步提升效果。总体而言,最佳预测器随语言和眼动指标强烈变化。  

![[无题图]](https://arxiv.org/html/2604.18712v1/github.png)  

https://github.com/rycolab/llm-representations-rt  

## 1 引言  

读者目光在语言单元上的停留时间被认为反映了加工该单元所需的认知努力(Just & Carpenter,1980;Rayner,1998)。眼动追踪以高时间精度记录注视时长,是测量该时间的主要手段。心理语言学的核心问题是哪些文本特征最能预测阅读时间,其预测优劣即该特征集的*心理测量力*(Smith & Levy,2013)。迄今,基于神经语言模型最成功的预测因子是surprisal(Hale,2001;Levy,2008;Wilcox et al.,2023)。  

另一方面,*探测*研究已证明神经语言模型内部表征编码了丰富的句法、形态和语义信息(Alain & Bengio,2017;White et al.,2021;Immer et al.,2022;Kim et al.,2025)。但探测多聚焦于从表示预测语言属性本身。虽有研究表明语言模型表示与fMRI、EEG等神经信号对齐(Schrimpf et al.,2021;Caucheteux & King,2022),但其能否直接预测*行为级*阅读时间——即眼动记录中以单元为粒度的加工努力——仍不清楚。  

见图1:mGPT不同特征设置对凝视时长的预测。文本来自MECO语料库。y轴为毫秒级阅读时间。黑线为真实凝视时长,紫线为第五层表示+标准surprisal的线性模型预测。可见在“presided”“conflict”等高信息单元处预测与真实值同步飙升。  

本研究用眼动数据探测语言模型表示。我们用正则化线性回归,从模型每一层提取表示直接预测单元级阅读时间,并与surprisal、信息值(Giulianelli et al.,2024b)、logit-lens surprisal(nostalgebraist,2020;Kuribayashi et al.,2025)等标量基线对比。实验在英语、希腊语、希伯来语、俄语、土耳其语的Provo(Luke & Christianson,2018)与MECO(Siegelman et al.,2022)两个眼动语料库上进行,模型选用mGPT(Shliazhko et al.,2024)、GPT-2(Radford et al.,2019)与cosmosGPT(Kesgin et al.,2024)。我们评估各层表示对首次注视时长、凝视时长与总阅读时间的预测力。  

结果显示不同眼动指标差异明显。英语中,早期层表示预测首次注视和凝视时长优于surprisal,表明初始词汇获取与局部结构编码的相关特征超出surprisal所能捕捉。相反,对于总阅读时间等晚期指标,即使surprisal极度压缩,仍常优于或媲美高维表示。跨语言来看,希腊语、希伯来语、俄语、土耳其语中标量预测因子常等于或强于表示,具体取决于眼动指标。将surprisal与层表示结合通常能进一步提升效果,但相对标量基线的增益并不总是显著。总体而言,语言模型的心理测量力强烈依赖于阅读指标、模型层与语言,而非单一预测因子可通吃所有场景。  

## 2 预备知识  

##### 语言模型  

我们采用Kiegeland et al. (2026)的框架,区分人类加工的抽象语言*单元*(阅读时间建模的对象)与语言模型输出的*符号*。surprisal理论及预测因子均以单元为单位,第5.1节讨论如何与以token定义的模型对齐。令U为可数的单元集,字符串u=u₁…u_T为有限单元序列,u<t表示前缀。语言模型p是U*上的概率分布,诱导前缀概率  

p⃗(u) = Σ_{u′∈U*} p(uu′)  (1)  

条件前缀概率  

p⃗(u|u) = p⃗(uu)/p⃗(u)  (2)  

由概率链式法则得自回归分解  

p(u) = p⃗(eos|u) ∏_{t=1}^T p⃗(u_t|u<t)  (3)  

eos为特殊结束符。Ū = U ∪ {eos}。  

##### 神经语言模型  

现代语言模型(如Transformer)通过L层参数化上述条件分布。输入层将符号u∈Ū映射为向量h₀(u)∈ℝᴰ,后续层递归计算  

h_ℓ(u) = f_ℓ(h_{ℓ−1}(u₁),…,h_{ℓ−1}(u_T))  (4)  

h_ℓ(u)表示第ℓ层在最终单元位置的表示。最后一层经投影得下一符号分布  

p⃗(·|u) = softmax(W g(h_L(u)) + b)  (5)  

g为最终非线性变换(如层归一化),W∈ℝ^{|Ū|×D},b∈ℝ^{|Ū|}。中间表示h₁(u),…,h_{L−1}(u)亦可供探测使用。

相似文章

Brain Score 追踪语言的共享属性:来自多种自然语言和结构序列的证据

arXiv cs.CL

本文研究了 Brain Score(一个将语言模型表征与人类阅读时 fMRI 激活进行比较的指标)是否真正捕捉到类似人类的语言处理,或仅反映结构相似性。研究人员在多种自然语言和非语言结构数据(基因组、Python、嵌套括号)上训练语言模型,发现在不同语言和非语言序列上训练的模型达到相似的 Brain Score 性能,这表明该指标可能不足以区分人类特有的处理方式。

通过语言提升理解力

MIT News — Artificial Intelligence

本文介绍了麻省理工学院大四学生奥利维亚·哈尼卡特(Olivia Honeycutt),重点展示了她在语言学、计算和认知科学交叉领域的跨学科研究,尤其关注人类语言处理与大语言模型的比较。

语言模型学习什么以及何时学习?隐性课程假设

Hugging Face Daily Papers

本文提出隐性课程假设,证明语言模型预训练遵循一个结构化的、组合性的课程,其中能力跨架构一致涌现,并可从内部表示预测。作者通过设计涵盖检索、形态学、共指消解、推理和数学的任务进行验证,发现四个模型族中涌现顺序高度一致(ρ=0.81)。

负面先于正面:大型语言模型中的不对称效价处理

arXiv cs.CL

本文通过机理可解释性研究大型语言模型如何处理情感效价。通过在三个开源LLMs上使用激活修补和引导,作者发现负面效价定位于早期层,而正面效价在中后期层达到峰值,并通过主题控制翻转测试验证了这一点。

超越文本主导:理解全模态大语言模型的模态偏好

Hugging Face Daily Papers

# 论文页面 - 超越文本主导:理解全模态大语言模型的模态偏好 来源:[https://huggingface.co/papers/2604.16902](https://huggingface.co/papers/2604.16902) ## 摘要 研究发现,原生全模态大语言模型表现出相对于文本的视觉偏好,模态偏好在模型中后层逐步涌现,并可用于诊断跨模态幻觉。原生[全模态大语言模型](https://huggingfa