基于文本和音频的语言模型中动词+up短语的整体存储

arXiv cs.CL 2026/06/15 04:00 论文

holistic-storage phrasal-verbs language-models frequency asr-model usage-based-linguistics

摘要

本文研究了基于文本的大语言模型和自动语音识别模型是否整体存储动词+up短语动词，发现频率和可预测性推动了整体存储，支持了基于用法的语言理论。

arXiv:2606.13993v1 公告类型：新摘要：语言能力的一个关键方面是在存储的表征和抽象知识之间进行权衡的能力：既要检索已学习的表征，也要通过应用生产规则生成新的表征。尽管近期研究已关注语言模型中的抽象知识，但对多词单元的整体存储关注甚少。我们探究了基于文本的大语言模型和自动语音识别模型的内部表征，测试动词+up短语动词是否根据频率和可预测性形成不同的表征。所有模型均显示出由频率和可预测性驱动的整体存储证据，进一步支持了基于用法的语言理论。

查看原文

查看缓存全文

缓存时间: 2026/06/15 08:57

# 基于文本和音频的语言模型中动词+Up短语的整体存储
来源：https://arxiv.org/html/2606.13993

Zachary N\. Houghton University of Oregon Vail Systems, Inc znh@uoregon\.edu&Yu Zhou Vail Systems, Inc &Dan Pluth Vail Systems, Inc &Vijay K\. Gurbani Vail Systems, Inc

###### 摘要

语言能力的一个关键方面是在存储表征和抽象知识之间进行权衡：人们必须检索学到的表征，但也需要通过应用能产规则生成新的表征。虽然近期研究考察了语言模型中的抽象知识，但对多词单位的整体存储关注较少。我们探测了基于文本的LLM和ASR模型的内部表征，测试V+*up*短语动词是否根据频率和可预测性形成不同的表征。所有模型都显示出由频率和可预测性驱动的整体存储证据，进一步支持了基于使用的语言理论。

基于文本和音频的语言模型中动词+*Up*短语的整体存储

Zachary N\. HoughtonUniversity of OregonVail Systems, Incznh@uoregon\.eduYu ZhouVail Systems, IncDan PluthVail Systems, IncVijay K\. GurbaniVail Systems, Inc

## 1 引言

语言学中一个核心争论涉及人类如何在计算和存储之间进行权衡 (Stemberger and MacWhinney,2004 (https://arxiv.org/html/2606.13993#bib.bib10),1986 (https://arxiv.org/html/2606.13993#bib.bib11); Kapatsinskiet al\.,2009 (https://arxiv.org/html/2606.13993#bib.bib38); Houghton and Morgan,2023 (https://arxiv.org/html/2606.13993#bib.bib12),2024 (https://arxiv.org/html/2606.13993#bib.bib13); Houghton,2025b (https://arxiv.org/html/2606.13993#bib.bib14),a (https://arxiv.org/html/2606.13993#bib.bib2); Morgan and Levy,2016 (https://arxiv.org/html/2606.13993#bib.bib15),2024 (https://arxiv.org/html/2606.13993#bib.bib16),2015 (https://arxiv.org/html/2606.13993#bib.bib19))。计算是指应用抽象知识生成新的表征；例如，通过能产的复数化规则从*wug*推导出*wugs*。存储是指从记忆中检索整个表征而非计算它，例如访问常见短语的整体表征（如*I don’t know*），尽管原则上可以通过组合方式生成该短语。这两种机制显然在语言学习和处理中起作用，但驱动哪些形式通过计算产生、哪些形式通过整体存储和检索的因素仍不清楚。

### 1.1 人类中的计算与存储

大量证据表明人类语言使用中存在抽象知识。儿童将形态学规则能产地推广到他们从未见过的新词 (Berko,1958 (https://arxiv.org/html/2606.13993#bib.bib20))，启动研究表明，共享句法结构或语义相关词的句子会促进彼此的处理，暗示它们的表征之间存在某种抽象共享 (Bock,1986 (https://arxiv.org/html/2606.13993#bib.bib21); Meyer and Schvaneveldt,1971 (https://arxiv.org/html/2606.13993#bib.bib23))。类似地，在对新颖或低频二项式排序时，人类依赖于抽象偏好（例如，倾向于将较短的词放在前面），而不是仅仅产生更频繁的排序 (Morgan and Levy,2016 (https://arxiv.org/html/2606.13993#bib.bib15))。

存储的历史更具争议性。早期观点认为只有不规则形式（如*went*）是整体存储的，任何可通过组合推导出的形式都是通过计算产生的 (Pinker and Ullman,2002 (https://arxiv.org/html/2606.13993#bib.bib24))。此后已积累了大量反对这一观点的证据 (Kapatsinskiet al\.,2009 (https://arxiv.org/html/2606.13993#bib.bib38); Bybee and Scheibman,1999 (https://arxiv.org/html/2606.13993#bib.bib25); Morgan and Levy,2016 (https://arxiv.org/html/2606.13993#bib.bib15); Houghton,2025a (https://arxiv.org/html/2606.13993#bib.bib2); Stemberger and MacWhinney,2004 (https://arxiv.org/html/2606.13993#bib.bib10))。Stemberger and MacWhinney (2004 (https://arxiv.org/html/2606.13993#bib.bib10)) 表明，高频词的屈折错误较少，暗示即使是规则推导出的形式也存在整体存储。Bybee and Scheibman (1999 (https://arxiv.org/html/2606.13993#bib.bib25)) 证明，*don’t* 在高频短语如 *I don’t know* 中的语音弱化程度高于低频短语如 *I don’t go*；如果 *don’t* 始终有相同的表征，这种语境特定的弱化将难以解释。

加工研究提供了趋同的证据。Morgan and Levy (2016 (https://arxiv.org/html/2606.13993#bib.bib15)) 发现，虽然人类对低频二项式的排序偏好由抽象偏好驱动，但对高频二项式的偏好则由词项特定偏好驱动，表明从计算到存储存在频率依赖的转变。与本研究最直接相关的是，Kapatsinskiet al\(2009 (https://arxiv.org/html/2606.13993#bib.bib38)) 发现，听者在高频 Verb+*up* (V+*up*) 短语（如 *pick up*）中检测 *up* 的速度比低频短语更慢。具体来说，他们要求参与者在听到 *up* 时按下按钮，*up* 出现在单词内或 V+*up* 短语内。他们发现，虽然参与者对中频短语的反应速度比低频短语更快，但当动词+*up* 短语是高频时，他们按按钮的速度更慢。此外，Houghton (2025a (https://arxiv.org/html/2606.13993#bib.bib2)) 发现，这一模式适用于高可预测性短语（V+*up* 短语，其中 *up* 很可能出现在动词之后），表明高频和高可预测性的 V+*up* 短语是整体表征的。

### 1.2 语言模型中的计算与存储

语言模型是否表现出与人类类似的计算-存储权衡已成为一个活跃的研究领域。在计算方面，结果不一：一些研究发现模型学习了训练中不存在的抽象概括 (Misra and Mahowald,2024 (https://arxiv.org/html/2606.13993#bib.bib28); Yaoet al\.,2025 (https://arxiv.org/html/2606.13993#bib.bib29); Lasriet al\.,2022 (https://arxiv.org/html/2606.13993#bib.bib27))，而另一些发现模型在人类使用抽象知识的地方失败，例如对新词的形态学泛化 (Haley,2020 (https://arxiv.org/html/2606.13993#bib.bib30))。在存储方面，毋庸置疑模型严重依赖记忆 (McCoyet al\.,2023 (https://arxiv.org/html/2606.13993#bib.bib31))。事实上，即使在人类表现出抽象偏好的任务中，也记录到了词项特定的频率效应 (Houghtonet al\.,2025 (https://arxiv.org/html/2606.13993#bib.bib26))。

语言模型是否以类似于人类的方式发展出整体短语表征是一个待解决的问题。如果确实如此，这将表明整体存储是从语言分布模式中学习的自然结果，不需要特殊的存储机制，从而支持计算与存储如何交互的基于使用的解释。基于音频的模型尤其适合回答这个问题，因为整体存储的许多证据来自听觉范式。因此，理解LLM和自动语音识别（ASR）模型是否都表现出类似的表征非常重要。然而，在任何此类ASR模型中，整体短语存储从未被检测过。更广泛地说，语言模型中的整体短语存储极少在任何模态下被研究，并且尚未在训练数据量相当于人类的模型中进行过研究。

### 1.3 本研究

本研究填补了这一空白。我们探测了基于文本的语言模型（这些模型在相当于人类的数据量上训练：BabyLMs^[该模型在1.5亿个token上训练。平均大学生年龄的人类大约经历3.5亿个单词 (Levyet al\.,2012 (https://arxiv.org/html/2606.13993#bib.bib35))，因此该模型的训练数据略少于普通大学生所经历的一半。]）、一个大语言模型（OLMo-3 7B）以及一个基于音频的语音识别模型（Whisper-small）的内部表征。选择这些模型是为了帮助阐明训练规模、参数量和模态（语音与文本）的影响。为了探测它们的表征，我们训练逻辑分类器来检测独立*up*的嵌入，然后在不同频率和可预测性的V+*up*短语上测试分类器。如果这些模型发展了整体短语表征，那么高频和高可预测性V+*up*短语中*up*的表征应该比低频和低可预测性短语更偏离独立*up*的表征，从而导致分类器的logit分数更低。我们的具体贡献是：

- • 我们训练并发布了三个在BabyLM v3语料库 (Charpentieret al\.,2025 (https://arxiv.org/html/2606.13993#bib.bib5)) 上训练的开源自回归模型，每2000万个token保存一次检查点，以促进未来关于人类规模语言学习的研究。
- • 我们证明，整体短语存储出现在基于文本的LLM和ASR模型中，表明频率和可预测性驱动的整体表征甚至在训练数据量相当于人类的模型以及跨模态时都会出现。
- • 我们证明，频率对短语存储的影响在不同模型规模上都很稳健，但可预测性的影响随着规模增大而增强，表明对超出原始频率的共现统计的敏感性需要更大的表征能力。

## 2 模型训练

为了研究在相当于人类数据量上训练的模型中的整体存储，我们在BabyLM v3语料库 (Charpentieret al\.,2025 (https://arxiv.org/html/2606.13993#bib.bib5)) 上训练了三个自回归语言模型，该数据集包含1.5亿个token，旨在更真实地反映人类接收语言的规模和质量。^[但值得注意的是，正如之前指出的（例如，Houghton, 2025a (https://arxiv.org/html/2606.13993#bib.bib2)），将LLM接收的token与人类接收的“token”进行比较可能具有误导性，因为人类在丰富的语境环境中遇到语言，而LLM只看到原始文本。所有三个模型都遵循OPT解码器专用Transformer架构 (Zhanget al\.,2022 (https://arxiv.org/html/2606.13993#bib.bib9))，分别具有1.25亿、3.5亿和13亿个参数。

在训练之前，我们直接在BabyLM训练语料库上拟合了一个字节对编码（BPE）分词器，生成8192个子词类型的词汇表。该分词器在所有三个模型规模之间共享，确保跨模型比较不会因分词差异而混淆。关于模型训练的完整描述包含在附录（第A节 (https://arxiv.org/html/2606.13993#A1)）中。

## 3 实验1：独立UP

实验1测试LLM是否发展出类似于基于使用理论提出的整体短语表征（例如，Kapatsinskiet al\.,2009 (https://arxiv.org/html/2606.13993#bib.bib38); Houghton,2025a (https://arxiv.org/html/2606.13993#bib.bib2)），使用在独立*up*表征上训练的分类器，并应用于频率和可预测性变化的V+*up*短语。我们在OLMo-3 7B和三个BabyLM（OPT-125M、350M和1.3B）上进行了研究。

### 3.1 方法

对于每个模型（OLMo-3 7B和BabyLM OPT-125M、OPT-350M、OPT-1.3B），我们从每个句子的每个隐藏层提取了*up* token的表示。利用这些表示，我们为每个层单独训练了一个逻辑回归分类器，以区分独立*up*（在分类器训练中未出现在V+*up*短语中）与同一句子中的其他token（这些其他token不以任何方式包含*up*片段）；训练项在下一节中描述。然后，训练好的分类器在包含V+*up*短语的保留测试集上进行测试，对于每个句子，分类器返回一个logit分数，反映V+*up*短语中*up*的表征与独立类相似的概率。

每个V+*up*类型的频率以其原始语料计数（对数转换）来操作化。令 cvup = count(V+up)：

log-频率 = log(cvup)  (1)

可预测性以语料中V+*up*出现次数与V后未接up的出现次数的对数几率比来操作化。令 cV = count(V)：

log-可预测性 = log(cvup / (cV - cvup))  (2)

计数源自每个模型的训练语料库：BabyLM模型使用BabyLM V3数据集 (Charpentieret al\.,2025 (https://arxiv.org/html/2606.13993#bib.bib5))，OLMo-3 7B使用Dolma v1.7（通过infini-gram API查询；Liuet al.2024 (https://arxiv.org/html/2606.13993#bib.bib7)）。虽然OLMo-3 7B是在Dolma 3上训练的，但Dolma v1.7是infini-gram索引的最新快照，且源自相同的基础来源，因此可以合理近似OLMo-3 7B的训练分布。^[常见英语短语动词的相对频率和共现模式在Dolma版本之间不太可能有显著差异，因为两者都是组成相似的较大规模网络文本语料库。]

#### 3.1.1 分类器训练

分类器被训练来区分语言模型中介词*up*的表示与同一句子中其他token的表示。正例包含1000个*up*出现，这些*up*严格作为介词出现在句子中^[我们使用形态分析器过滤掉*up*未被标记为介词的句子。]，来自C4语料库 (Raffelet al\.,2020 (https://arxiv.org/html/2606.13993#bib.bib6)) 的句子。负例是随机从相同句子中选取的1000个token，限制为解码字符串完全由字母字符组成（无数字、标点或特殊字符）的token，并排除介词*up*本身以及任何包含*up*作为子串的token。验证集取自相同句子的池（非重叠子集），token位置根据每个模型的分词器确定；对于某些模型，确切数量略低于1000，因为分词器并不总是产生孤立的*up* token。例如，当*up*出现在标点之前且分词器将两者合并为一个单元（如*up,*）时，就没有可提取的孤立*up*位置，因此该实例被排除。所有模型的分类器都在相同的底层句子上训练。

测试集包含V+*up*短语（例如*pick up*），这些短语在语料库中至少出现20次；每个类型最多采样20个句子。由于BabyLM语料库比Dolma小，达到有效（非零）可预测性估计的V+*up*类型更少；只有具有有效估计的类型被纳入分析。完整的项目级统计报告在附录（表3 (https://arxiv.org/html/2606.13993#A3.T3)）中。对于OLMo-3 7B，包括4081个唯一的V+*up*类型，平均

基于文本和音频的语言模型中动词+up短语的整体存储

相似文章

你在说我的语言吗？关于多模态大语言模型中的口语遵循问题

探究大语言模型中的最简阶段结构：通用依存关系无法表达的内容

论词汇性在大语言模型中的持续影响

从输入端最小化模态差距：您的语音大语言模型可以成为具备韵律感知能力的文本大语言模型

语言模型难以实现概念整合

提交意见反馈