大型语言模型中的语言生产力:模型能强制,但不会先占

arXiv cs.CL 论文

摘要

本文探究大型语言模型是否表现出与人类相同的基于使用的语言生产力约束(固化与先占),研究发现模型可以复现强制现象,但无法应用统计先占来避免过度泛化。

arXiv:2606.02953v1 Announce Type: new 摘要:基于使用的语法理论认为,语言结构的创造性生产力受到两种不同频率信号的促进和制约:固化(源于高频使用)和先占(源于在预期出现某种结构的语境中从未观察到该结构)。大型语言模型也是基于使用的,因为语言结构是通过接触大量文本而习得的。本文测试了固化与先占的相反统计力是否也促进和制约着LLM的语言生产力。我们跨模型架构证明,较大的模型能够识别并在强制情况下使用非词构式生产力(固化),其中更广泛的构式语境强制对词汇项进行非典型解读。然而,我们也表明,即使是最大的模型也不会将负面证据扩展到新语言,统计先占也无法使模型避免对语义上合适但从未在数据中观察到的模式进行过度泛化。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:36

# 语言生成模型中的语言产出性:模型能强制,但不能优先占据
来源:https://arxiv.org/html/2606.02953
克莱尔·博尼亚尔¹,克莱尔·贝内特·波斯特²,劳拉·迈克尔²,哈里什·塔亚尔·马达布希³  
¹乔治城大学,²科罗拉多大学博尔德分校,³巴斯大学  
通讯邮箱:claire\.bonial@georgetown\.edu (https://arxiv.org/html/2606.02953v1/mailto:[email protected]),htm43@bath\.ac\.uk (https://arxiv.org/html/2606.02953v1/mailto:[email protected])

###### 摘要

基于使用的语法理论认为,语言结构的创造性产出同时受到两种不同频率信号的增强和约束:**固化**,源于高频使用;**优先占据**,源于在预期某结构出现的语境中从未观察到该特定结构。大型语言模型同样是基于使用的,原因在于语言结构是通过接触海量文本而习得的。本文测试了固化与优先占据这两种对立的统计力量是否也能促进和约束语言生成模型的产出性。我们跨模型架构证明,较大的模型能够识别并使用新词展现构式产出性(固化),具体体现为**强制**现象——即更广泛的构式语境强制词汇项产生非典型解读。然而,我们也表明,即使是最大的模型也不会将负面证据推广到新语言中,并且统计优先占据无法帮助模型避免过度泛化那些语义上合理但从未在数据中出现的模式。

# 语言生成模型中的语言产出性:模型能强制,但不能优先占据

克莱尔·博尼亚尔¹,克莱尔·贝内特·波斯特²,劳拉·迈克尔²,哈里什·塔亚尔·马达布希³  
¹乔治城大学,²科罗拉多大学博尔德分校,³巴斯大学  
通讯邮箱:claire\.bonial@georgetown\.edu (https://arxiv.org/html/2606.02953v1/mailto:[email protected]),htm43@bath\.ac\.uk (https://arxiv.org/html/2606.02953v1/mailto:[email protected])

## 1 引言

越来越多的研究展示了基于处理海量文本来构建语言模型与人类通过互动语言使用来构建自然语言语法(例如,Tomasello (2006 (https://arxiv.org/html/2606.02953#bib.bib232),2009 (https://arxiv.org/html/2606.02953#bib.bib78)))之间的相似性。大型语言模型(LLMs)在多种任务中的成功可以被理解为确认了这样一个假设:仅凭以文本形式接触语言模式就足以构建一个功能性的语言模型,而无需先验地设定语法规则。基于使用的语法理论,例如构式语法(CxG)(例如,Goldberg (1995 (https://arxiv.org/html/2606.02953#bib.bib39));Croft (2001 (https://arxiv.org/html/2606.02953#bib.bib40));Bybee (2010 (https://arxiv.org/html/2606.02953#bib.bib107))),同样认为语言使用产生了自然语言学习,使得接触频率支持语言结构的固化和泛化(Tomasello (2003 (https://arxiv.org/html/2606.02953#bib.bib54)))。根据许多此类理论,基于使用的语法发展无需设定句法规则:说话者并非学习并记忆词汇项和有限数量的指导其语法组合的句法规则,而是习得并学习他们最常接触到的未经分析的语言**整体短语**(Tomasello 等 (2008 (https://arxiv.org/html/2606.02953#bib.bib428)))。在习得过程中,说话者将高频短语的模式产出性地扩展到新颖、创造性的组合中。

因此,理论认为,接触特定语言构式(特定构式类型的实例)的频率在语法发展中起着重要作用(Hoffmann (2022 (https://arxiv.org/html/2606.02953#bib.bib234)))。虽然频率有助于固化已建立的模式,但**统计优先占据**对语法中的产出性具有约束作用(Goldberg (2019 (https://arxiv.org/html/2606.02953#bib.bib414)))。具体而言,统计优先占据解释了为什么说话者不会一贯地过度泛化“-ed”过去时后缀到不规则动词:在语言语境可能提示“go-ed”的地方,说话者反而一贯听到“went”。因此,说话者在发展语法时会关注负面证据(在特定语言语境中他们未听到的内容)。

尽管频率的作用在心理语言学文献中已基本达成共识并得到充分支持,但构式语法除了基于符号的构式语法(Michaelis (2013 (https://arxiv.org/html/2606.02953#bib.bib237)))之外,很少提供模型或预测语言产出性模式的方法。LLMs 为在庞大的基于使用的语言模型中研究这些力量提供了前所未有的机会。本文通过聚焦于**强制**和**统计优先占据**现象来探索人类与 LLM 处理之间的相似性,以此测试模型是否同样利用正面和负面证据进行语言泛化并避免过度泛化。*我们的实验表明,模型习得了构式范畴,但并未将它们用作优先占据信号。*

在介绍理论框架(§2 (https://arxiv.org/html/2606.02953#S2))之后,我们总结了关于频率在语言产出性中作用的相关语言学和心理语言学研究(§3 (https://arxiv.org/html/2606.02953#S3),§4 (https://arxiv.org/html/2606.02953#S4))。接着,我们提出两个实验。第一个**强制**实验测试模型解释强制构式语义的能力,例如“I drank the bottle”(我喝了瓶子),其中词汇项的释义受到更广泛语境的强制(例如,容器被解读为内容物)(§5.1 (https://arxiv.org/html/2606.02953#S5.SS1))。强制是说话者将语言模式产出性地扩展到新颖、创造性用法的一种方式。第二个**统计优先占据**实验测试模型通过关注负面证据来约束产出性的能力:存在一个语言语境,其中某结构在语义上是可行的,但该结构从未出现(例如,?The asleep cat purred peacefully(?那只睡着的猫平静地咕噜);?The teacher explained me the answer(?老师解释了我答案)¹¹我们会在可能被大多数英语使用者认为有疑问或不可接受的语句前加上'?'。)(§5.2 (https://arxiv.org/html/2606.02953#S5.SS2))。因此,统计优先占据抑制了产出性和过度泛化。关键的是,我们的方法始终利用熟悉的(英语)语言和新词(非词)来测试模型的真正泛化能力,使其与记忆的语言特征分离。我们总结结果(§6 (https://arxiv.org/html/2606.02953#S6),§7 (https://arxiv.org/html/2606.02953#S7)),表明虽然模型能从正面证据中学习解释强制构式,但它们并未运用负面证据来优先占据某些结构并约束完全的产出性。

## 2 基于使用的理论框架

与生成语法理论(该理论认为说话者只记忆最少信息:词汇项及其意义,以及一套少量的、可重复使用的句法规则来指导这些项的语法组合)相反,基于使用的理论认为说话者会存储、分类并聚类每一次语言体验实例中的大量信息(Bybee (2010 (https://arxiv.org/html/2606.02953#bib.bib107)))。在构式语法方法下,这些语言体验实例是形式与意义的配对,可以是词、短语,甚至词的子部分,称为**构式**。构式的形式极是语音信息,可以是固定的或可变的。例如,比较-关联构式包含固定的语音形式“the”与两个并列的灵活、图式化空位:“The higher you fly, the harder you fall.”(你飞得越高,摔得越重)。意义极是关于所指对象的概念知识,会因说话者而异。在构式语法中,意义极因说话者遇到特定词汇项时存储的各种社会及语用信息而更加丰富。

由于每次语言接触都存储了一系列语境信息,说话者构建的语法始于与频繁经历相关联的频繁听到的语言形式。例如,孩子学会将说“妈妈”与父母出现的经历联系起来。随着经验的增长,说话者认识到特定语言语境与填充特定空位的词类之间的共性,从而产生泛化和类似词类的信息。例如,孩子可能首先学会将“Want X”(想要X)模式扩展到某种食物或饮料,然后扩展到如玩具等令人渴望的物品。对已习得构式的抽象程度不断提高,因为说话者首先识别并抽象出“want”之后空位的共性,然后注意到其前空位的相似性,再注意到更宽泛短语中的共性,从而产生了动词、动词短语和小句的概念(说话者运用这些信息,但无需意识到语言标签或元语言泛化本身)。

这样,频率支持了语言中某些结构和模式的固化。然而,很明显有许多语言构式并非无限产出,实际上有些模式是半产出的,其产出性看似特殊。例如,英语形容词短语构式高度产出:“the red ball”(红球)、“that big building”(那座大楼)、“a fun party”(一个有趣的派对)。但有一类英语形容词并不构成该模式的产出性扩展:“?the asleep cat”(?那只睡着的猫)、“?that aloft balloon”(?那个高空气球)、“?an ashamed look”(?一个羞愧的表情)。注意,这些形容词与更广泛的英语形容词短语构式不兼容并无明确的语义原因;换句话说,由“a-”开头的形容词并不形成一个与构式概念上不兼容的连贯语义类别。

然而,在英语中有一个竞争性的可行替代方案来表达某物具有特定特征:“the ball is red”(球是红的)、“the cat is asleep”(猫是睡着的)。这些“a-”形容词在谓语-形容词构式中确实有一定频率出现。因此,存在负面证据阻止“a-”形容词用于形容词短语构式,同时存在正面证据支持它们用于谓语-形容词构式。说话者没有过度泛化形容词短语构式这一事实表明,说话者不仅关注特定构式类别内构式的相对频率,而且关注负面证据,即从未说过的东西。

因此,根据基于使用的构式语法观点,语言结构的泛化是在正面证据和负面证据的影响下进行的。在接下来的部分中,我们分别阐述关于正面泛化过程——强制,和负面泛化过程——统计优先占据的语言学及心理语言学研究。我们将 LLM 测试建立在这一语言学研究和实验的基石之上。

## 3 强制

**强制**由 Pustejovsky (1991 (https://arxiv.org/html/2606.02953#bib.bib120)) 首次提出,他描述“类型强制”是一种形式语义操作,其中句法语境要求特定的语义类型,如果填充项与该类型不匹配,则通过词条内的机制(在此观点下为**属性结构**)将其强制转换为所需类型。例如,动词“begin”原型上需要某种随时间展开的事件。因此,“begin the book”(开始那本书)是对具体名词“book”的类型强制,在此语言语境中被理解为“begin reading the book”(开始读那本书)。

在本研究中,我们采用 Michaelis (2004 (https://arxiv.org/html/2606.02953#bib.bib121)) 概述的强制定义,他引入构式语法视角来审视强制,并提出了**覆盖原则**:

> “如果一个词汇项在语义上与其形态句法语境不兼容,则该词汇项的意义会顺应其所嵌入结构的意义。”(Michaelis, 2004 (https://arxiv.org/html/2606.02953#bib.bib121),第 25 页)

因此,当构式与词汇项发生冲突时,构式语义将胜出。

虽然 Michaelis (2004 (https://arxiv.org/html/2606.02953#bib.bib121)) 主要关注体态强制,我们则聚焦于实现从容器到内容物类型转换的强制过程,这在 Radden 和 Kövecses (1999 (https://arxiv.org/html/2606.02953#bib.bib119)) 中被详细描述为一种常见的转喻概念关系。作者认为,说话者对容器内容物的兴趣大于容器本身。因此,我们常见通过容器来指代内容物的转喻:“This is an excellent bottle”(这是一瓶极好的酒),指的是瓶中的酒。

注意,解释和运用强制构式需要相当多的世界知识,以支持诸如容器与内容物、拥有者与被拥有物、部分-整体转喻等概念聚类。这与认知词汇意义观一致,即概念并非根据充分必要条件来定义,而是通过隐喻集群来定义,其中“每个隐喻突显概念的某些方面,并隐含地遮蔽其他方面”(Lakoff 和 Johnson, 1980 (https://arxiv.org/html/2606.02953#bib.bib117),第 201 页)。因此,强制促进了词汇项在特定构式语境中的非典型但合理的解读。此外,强制是支持构式产出性地泛化到新颖、先前未见实例的一个过程。

## 4 统计优先占据

虽然心理语言学文献已表明,更频繁的形式更有可能通过诸如强制等过程成为产出性泛化的基础(Bybee 和 Eddington (2006 (https://arxiv.org/html/2606.02953#bib.bib314))),但什么阻止了说话者过度泛化呢?实验证据指向统计优先占据的影响:

> 说话者根据反复听到形式B(而语义和语用上恰当的表达A本可使用)所做出的推断:B是恰当的表述,而A不是。(Suttle 和 Goldberg, 2011 (https://arxiv.org/html/2606.02953#bib.bib315))

这一过程已在实验中证实,表明这是儿童如何避免某些形态构式过度泛化的方式。如前所述,考虑英语过去时结尾“-ed”应用于高频不规则动词的情况:在可能预期“go-ed”的语境中反复听到“went”,这是负面间接证据,表明“go-ed”不恰当(Aronoff, 1976 (https://arxiv.org/html/2606.02953#bib.bib399);Kiparsky, 1982 (https://arxiv.org/html/2606.02953#bib.bib400))。

短语层面的统计优先占据过程更为复杂,因为不清楚什么在语义和语用上足够相似以至于能优先占据另一种短语形式。实际上,有一些跨语言研究针对十分明显的平行形式,例如捷克语的变体,……

相似文章

大型语言模型有多像人类?一个关注语域的语言评估框架

arXiv cs.CL

本文提出了一种关注语域的语言评估框架,通过使用最大均值差异(MMD)比较人类与LLM生成文本中67个词汇语法特征的分布,来评估大型语言模型(LLM)的人类相似度。在七个经过指令微调的开源模型和五个语域上的实验表明,没有模型能完美匹配人类基线,且与人类语言的接近程度因语域而异,而非模型规模。

大语言模型中的语言习得装置

arXiv cs.CL

本文提出了一种受LAD启发的预预训练方法,使用一种名为MP-Struct的形式语言,该语言编码了类自然语言结构。研究表明,这种方法提高了token效率,并赋予了模型类似人类的对结构不合理语言的抵抗力,挑战了先前关于有效预预训练语言的假设。

论词汇性在大语言模型中的持续影响

arXiv cs.CL

本文研究了词汇重叠(而非语义内容)如何影响跨层和跨架构的大语言模型表示,并证明即使在为语义相似性训练的模型中,这种词汇效应依然存在,导致下游任务性能下降。