大语言模型作为语言学中的模态模型
摘要
本文运用科学哲学框架论证,大语言模型作为最小模型在语言学中具有认识论价值,可用于提供可能性解释,但尚不足以构成对人类语言的实际性解释。
arXiv:2606.10467v1 发布类型:新
摘要:大语言模型的快速发展加剧了关于其对语言学理论意义的争论。这些争论通常分为三种立场:绝缘主义(认为大语言模型与人类语言无关)、消除主义(声称大语言模型可以取代传统语言学理论)以及调和主义(将其视为语言学研究的有用工具)。为澄清这些立场,本文引入了科学哲学中的模态建模框架。我们认为,即使大语言模型与人类认知不存在结构对应关系,它们作为最小模型仍具有真正的认识论价值。特别是,它们可以通过测试关于语言习得和语言能力的模态主张,提供可能性解释。随后,我们基于科学解释的机制性观点,考察了大语言模型在何种条件下能够成为人类语言的实际性解释。我们认为当前的大语言模型尚不满足这些条件。基于这一分析,我们提出将大语言模型的解释力理解为一个介于可能性解释与实际性解释之间的连续体。这一框架既能避免夸大其解释意义,也能避免低估其价值,并为评估大语言模型在语言科学研究中的作用提供了更精确的基础。
查看缓存全文
缓存时间: 2026/06/10 06:11
# 作为语言学模态模型的大型语言模型 来源:https://arxiv.org/html/2606.10467 Saku Sugawara [email protected] 国立信息学研究所 / 东京大学 2026年6月 ###### 摘要 大型语言模型(LLMs)的快速发展加剧了关于其对语言学理论意义的争论。这些争论通常分为三种立场:绝缘主义,认为LLMs与人类语言无关;消除主义,声称LLMs可以取代传统语言学理论;以及调和主义,将其视为语言学研究的实用工具。为了阐明这些立场,本文借鉴科学哲学中的模态建模框架进行分析。我们认为,即使缺乏与人类认知的结构对应,LLMs作为最小模型仍具有真正的认知价值。特别是,它们可以通过检验关于语言习得和语言能力的模态主张,提供“可能如何解释”(HPEs)。随后,我们考察LLMs能够成为人类语言“实际如何解释”(HAEs)所需的条件,借鉴科学解释的机制论述。我们认为当前的LLMs尚未满足这些要求。基于这一分析,我们提出将LLMs的解释能力理解为介于HPEs和HAEs之间的连续体。这一框架既避免夸大也避免低估其解释意义,并为评估LLMs在语言科学研究中的作用提供了更精确的基础。 ## 1 引言 近年来,GPT等大型语言模型(LLMs)在包括机器翻译、文本摘要和问答在内的广泛自然语言任务中表现出色。这些发展重新激发了语言学领域关于如何解释和理解人类语言的讨论。目前关于LLMs与语言学理论关系的讨论大致可分为三种立场:第一种是绝缘主义,认为LLMs与语言学无关,因为与人类相比它们需要大量数据,且仅提供准确预测而不提供科学解释(Kodner等人,2023(https://arxiv.org/html/2606.10467#bib.bib31))。第二种是消除主义,认为LLMs可以通过在不依赖显式规则的情况下习得句法来取代传统理论(Piantadosi, 2024(https://arxiv.org/html/2606.10467#bib.bib38))¹。第三种是我们所称的调和主义,将LLMs视为检验和修正现有理论的有用工具(Millière, 2024(https://arxiv.org/html/2606.10467#bib.bib35);Futrell和Mahowald, 2025(https://arxiv.org/html/2606.10467#bib.bib19))。 > ¹ 对于这两种立场的标签“绝缘主义”和“消除主义”改编自McGrath等人(2024(https://arxiv.org/html/2606.10467#bib.bib34))。 这些争论往往源于对元科学概念(如什么是科学解释、科学模型旨在实现什么)缺乏共识。为了评估关于LLMs在语言学中意义的观点的有效性,有必要明确每种立场依赖的基本含义和假设。本文借鉴科学哲学中的工具来分析LLMs与语言学理论的关系,从而评估其在语言学中的认知价值。 我们提出通过模态建模(cf. Wirling和Grüne-Yanoff, 2021(https://arxiv.org/html/2606.10467#bib.bib58))的框架来理解这种关系。这种方法涉及旨在提供关于可能或必要而非仅仅描述现实世界信息的建模实践。在该框架内,我们区分两种解释类型:可能如何解释(HPEs),展示一个现象原则上如何发生;以及实际如何解释(HAEs),识别导致该现象的实际机制(Bokulich, 2014(https://arxiv.org/html/2606.10467#bib.bib7))。 首先,我们认为即使作为缺乏与人类认知机制结构同构的最小模型(Grüne-Yanoff, 2009(https://arxiv.org/html/2606.10467#bib.bib21)),LLMs仍具有真正的认知价值。作为最小模型,LLMs提供HPEs,可以检验语言学中的模态主张,例如语言习得不可能没有先天语言特定约束的主张。这种方法允许研究者更新他们对关于人类语言结构和习得中什么是必要或不可能的信念的置信度。Millière(2024)认为,在考虑认知和发展合理性的设计下训练的语言模型可以提供关于语言习得和语言能力的HPEs(Millière, 2024(https://arxiv.org/html/2606.10467#bib.bib35))。我们通过应用模态建模框架来扩展这一观点,阐明语言学中哪些信念通过这些解释得到更新。其次,我们考察LLMs超越HPEs并成为人类语言能力HAEs所需的条件。借鉴机制解释论(Craver, 2006(https://arxiv.org/html/2606.10467#bib.bib13);Kaplan和Craver, 2011(https://arxiv.org/html/2606.10467#bib.bib29)),我们认为LLMs必须满足源自3M++约束的两个要求(Cao和Yamins, 2024(https://arxiv.org/html/2606.10467#bib.bib2)):预测充分的可运行抽象(PARA),要求模型处理与人类相同类型的输入并大致预测人类行为模式;以及变换相似性,要求在适当抽象层面模型内部与人类神经机制之间存在有意义的结构对应。我们表明当前LLMs尚未达到这些要求。 参见图注 图1: 评估LLMs解释能力的框架 这一分析引导我们提出关于LLMs解释能力的连续体观点,范围从HPEs到HAEs(图1)。从这一视角看,绝缘主义者和消除主义者都犯了同样的错误,即以全有或全无的方式评估LLMs的解释能力:前者仅仅因为LLMs未达到HAE就否定其作为HPE的价值,而后者则将HPE层面的成功误认为HAE的建立。此外,虽然调和主义立场方向正确,但其评估解释能力的标准仍不明确。我们的框架解决了这些问题,并为更具建设性的讨论提供了共同基础。 ## 2 背景 ### 2.1 关于LLMs与语言学关系的现有立场 以GPT等系统为代表的LLMs的快速发展,重新激发了语言学中一个长期存在的问题:表现出复杂语言行为的人工系统能否有助于我们理解人类语言?对此,近期文献中出现了三种广泛立场:绝缘主义、消除主义和调和主义。在此,我们更详细地考察每种立场,特别关注它们所依赖的方法论假设。 绝缘主义者坚持认为LLMs令人印象深刻的语言表现与理论语言学无关(Chomsky等人,2023(https://arxiv.org/html/2606.10467#bib.bib12);Kodner等人,2023(https://arxiv.org/html/2606.10467#bib.bib31);Fox和Katzir,2024(https://arxiv.org/html/2606.10467#bib.bib17);Müller,2025(https://arxiv.org/html/2606.10467#bib.bib37);Bolhuis,2025(https://arxiv.org/html/2606.10467#bib.bib8))。他们的论点通常基于两点考虑。第一点涉及LLMs与人类语言能力或语言习得之间的差距。例如,当前LLMs依赖多达数万亿词元的数据,是人类儿童通常接触到的输入量的数千倍(Warstadt等人,2023a(https://arxiv.org/html/2606.10467#bib.bib51))。此外,人类婴儿能快速学习遵循自然语言结构的语言,但难以学习具有非自然结构的不可能语言,而语言模型能同样容易地学习这些不可能语言(cf. Moro等人,2023(https://arxiv.org/html/2606.10467#bib.bib36))。批评者还认为,LLMs未能捕捉传统上认为与人类语言认知相关的核心属性,包括组合性、能力-表现区分和模块性(例如,Fox和Katzir,2024;Dupre,2021(https://arxiv.org/html/2606.10467#bib.bib14))。第二点考虑涉及科学解释的本质。对于绝缘主义者,LLMs本质上是生成概率预测的设备。即使承认其高预测准确性,这本身也不满足科学理论的核心作用。如Kodner等人(2023)所论证,科学理论应提供可解释和有解释力的叙述,而不仅仅是准确的预测。在这方面,LLMs类似于天文学中的托勒密模型,该模型通过不断添加本轮取得了高预测准确性,但并未提供对行星运动的真正解释(同上,第4节)。这一立场的潜在假设是,真正的科学模型或理论必须揭示实际因果机制,并与其目标系统保持结构对应。从这个观点看,任何偏离已知语言习得和语言认知特征的模型根本就不是解释人类语言的模型。 消除主义者采取了一种明显不同的立场。他们认为LLMs的成功质疑了许多传统语言学理论的必要性,甚至可能使其过时。例如,Piantadosi(2024(https://arxiv.org/html/2606.10467#bib.bib38))认为,现代语言模型的成就对乔姆斯基传统的核心假设构成了实际挑战。特别是,LLMs仅通过预测学习就习得了复杂的句法和语义规律,而无需依赖显式编码的语法规则或先天普遍语法。如果这种学习是可能的,那么刺激贫乏论证似乎被大大削弱。一些消除主义者更进一步,认为LLMs本身应被视为更优越的语言学理论。例如,Ambridge和Blything(2024(https://arxiv.org/html/2606.10467#bib.bib3))认为,在预测与动词论元结构相关的可接受性判断方面,LLMs优于传统理论。在这种观点下,语言类似于其他复杂适应系统,如金融市场或社会性昆虫巢穴,其行为源自大规模互动而非简单的基本原则。因此,语言学理论可能本质上是复杂的,抵制直觉理解。优雅和可解释性——传统上被视为理论美德——因此可能成为负担而非优势。消除主义的核心假设是,对系统输入-输出行为的足够准确模拟足以建立解释优越性。如果LLMs比竞争理论更好地预测语言行为,那么它应被视为更好的理论。 第三种立场,我们称之为调和主义,寻求这两种极端之间的中间地带。他们认为LLMs既不能取代现有语言学理论,也并非与之无关。相反,它们充当评估、修正和约束关于语言习得和语言能力假设的有价值工具。Millière(2024(https://arxiv.org/html/2606.10467#bib.bib35))提出,通过仔细控制学习条件并利用因果干预,对LLMs的实验可能约束关于语言习得和能力的假设。Futrell和Mahowald(2025(https://arxiv.org/html/2606.10467#bib.bib19))同样认为,LLMs为形式化和检验用法模型及功能语言学所倡导的渐变和概率语言观提供了概念验证。这一立场的假设是,科学模型无需与人类大脑存在严格的结构对应就能提供有效的语言学解释。即使是高度理想化的人工系统,只要允许研究者在受控条件下检验相关假设,就有可能提供对人类认知的洞察。 尽管存在分歧,这三种立场都有一个共同的缺陷:它们没有明确说明其论点所依赖的元科学概念。当绝缘主义者声称LLMs预测但不解释,而消除主义者声称它们确实解释时,不清楚它们是否基于相同的解释概念。当调和主义者谈论LLMs作为语言模型使得关于人类语言习得的推理成为可能时,它们所援引的模型概念在争论中并未共享。如果不澄清这些隐含承诺,冲突部分仅仅是口头上的。为了公平地评估LLMs的认知价值,有必要明确这些元科学前提。科学哲学恰好提供了完成这一任务所需的工具,我们现在转向这些工具。 ### 2.2 模态建模 在本文中,我们借鉴科学哲学中关于模态建模的最新讨论,构建一个评估LLMs认知价值的框架。模态建模指的是旨在提供模态信息(如什么是可能的、什么是必要的、或者在反事实情况下可能发生什么)而非关于现实世界信息(cf. Wirling和Grüne-Yanoff,2025(https://arxiv.org/html/2606.10467#bib.bib54))的建模实践。科学探究经常依赖于这样的模型。例如,研究者使用模型来调查在特定条件下全球气温可能上升多少,需要达到怎样的疫苗接种覆盖率才能控制疫情,或某项住房政策提议可能如何改变城市人口分布模式。 传统的科学建模论述通常假设模型通过表征现实世界目标系统来发挥作用(例如,Giere,2004(https://arxiv.org/html/2606.10467#bib.bib20);Weisberg,2013(https://arxiv.org/html/2606.10467#bib.bib53))。在这种观点下,模型的主要目的是捕捉实际实体、过程或事件的相关特征。因此,未能准确表征目标的高度理想化模型通常被视为仅仅是启发式手段或通往更完整解释的临时步骤(例如,Craver,2006(https://arxiv.org/html/2606.10467#bib.bib13))。然而,科学哲学中的近期工作挑战了这一假设。在模态建模的讨论中,哲学
相似文章
科学概念的计算概念史:从早期数字方法到大语言模型
本文将大语言模型置于科学史、科学哲学与科学社会学(HPSS)领域概念分析计算方法的宏观历史背景之中,系统回顾了词汇语义变化检测的方法论挑战与基于大语言模型的案例研究,涵盖前大语言模型时代与大语言模型时代工作流程中的语料库构建、操作化及评估方法。
从输入端最小化模态差距:您的语音大语言模型可以成为具备韵律感知能力的文本大语言模型
提出了 TextPro-SLM,一种通过处理口语输入使其类似于具备韵律感知能力的文本来最小化模态差距的语音大语言模型,以少量的训练数据实现了强大的副语言理解能力。
大语言模型化:当人类开始将自己视为语言模型
本文探讨了“大语言模型化”这一概念,即人类开始透过语言模型的视角来审视自身,并深入分析了这一现象对人类认知及自我感知的影响。
语言模型知道不该说什么吗?LLMs中统计抢占的因果证据
本文提供了因果证据,表明大型语言模型通过微调操纵竞争形式频率,能够获得统计抢占(构式语法中的一种机制)所涉及的负面语言知识(即不该说什么),且行为变化符合预测方向。
为何通用人工智能需要世界模型:大型语言模型的不足与世界模型的潜在优势
本文认为,大型语言模型在因果推理和长时域规划方面存在困难,其原因在于序列预测与对潜在环境动态的推理之间存在目标层面的不匹配,并引入了潜在动态推断视角以及Flux环境来研究这些局限性。