贪婪与否,我来了:人类与资源理性模型在词汇限制下的语言生成

arXiv cs.CL 论文

摘要

本文探讨了人类在严格词汇限制下如何进行交流,将其增量生成策略与使用大语言模型进行顺序蒙特卡洛推断的贪婪和全局最优采样算法进行比较。

arXiv:2605.15365v1 Announce Type: new 摘要: 使用有限词汇进行交流是一种常见但具有挑战性的认知现象,要求理想的交流者仔细规划,以在避开受限词汇的同时优化可理解性。在本研究中,我们探讨了人类如何在可变的词汇限制下回应广泛的问题,其中最严格的限制仅包含250个高频词。我们提供了与使用大语言模型进行顺序蒙特卡洛推断的贪婪和全局最优采样算法在理论上的比较。人类通常更接近贪婪采样而非全局最优采样,但技能更高的人类更可能回溯和修正——这是一种非贪婪行为。在高约束情境下,人类倾向于使用语义轻词的模式在贪婪和全局最优采样中均有体现。我们讨论了这些结果及其对资源理性认知、心理语言学、第二语言交流和语言障碍的广泛启示。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:30

# 贪心与否,我来了:人类与资源理性模型在词汇约束下的语言生成  
来源:https://arxiv.org/html/2605.15365  
Thomas Hikaru Clark¹,Sihan Chen¹,Laura Nicolae²  
¹麻省理工学院脑与认知科学系  
²哈佛大学经济系  
\{thclark, sihanc\}@mit\.edu, lauranicolae@g\.harvard\.edu  

###### 摘要  

仅使用有限词汇进行交流是一种常见但极具挑战性的认知现象,要求理想的沟通者精心规划,在受限词汇的限制下优化表达的可理解性。在本研究中,我们探讨了人类在可变的词汇限制下(最严格时仅包含250个高频词)如何回答一系列广泛的问题。我们通过序贯蒙特卡洛推断结合大型语言模型,提供了与贪心采样和全局最优采样算法的理论驱动比较。人类通常更接近贪心采样而非全局最优采样,但技能更高的人类更可能回溯和修改——这是一种非贪心行为。在高度约束情境下,人类依赖语义轻词的现象,同时出现在贪心采样和全局最优采样中。我们讨论了这些结果及其对资源理性认知、心理语言学、第二语言交流和语言障碍的广泛意义。  

关键词:心理语言学;大型语言模型;解释;规划;资源理性  

## 引言  

人类利用语言进行沟通\@BBOPcitep\@BAP\@BBN\(Fedorenko et al., 2024 (https://arxiv.org/html/2605.15365#bib.bib23)\)\@BBCP。利用信息论的见解\@BBOPcitep\@BAP\@BBN\(Shannon, 1948 (https://arxiv.org/html/2605.15365#bib.bib69)\)\@BBCP,研究者将语言建模为说话者和听者之间的通信代码:说话者将其意义转化为话语,听者接收话语并恢复意义\@BBOPcitep\@BAP\@BBN\(参见 Gibson et al., 2019 (https://arxiv.org/html/2605.15365#bib.bib28)\)\@BBCP。生成过程是渐进式的:人们通常不会事先想好完整的话语,而是边说边计划\@BBOPcitep\@BAP\@BBN\(例如,Bock and Levelt, 1994 (https://arxiv.org/html/2605.15365#bib.bib6); Ferreira and Swets, 2002 (https://arxiv.org/html/2605.15365#bib.bib81); Pickering and Garrod, 2013 (https://arxiv.org/html/2605.15365#bib.bib64)\)\@BBCP。在计算层面上,\@BBOPcitet\@BAP\@BBNFutrell (2023 (https://arxiv.org/html/2605.15365#bib.bib26))\@BBCP将语言生成建模为一个行动规划问题,其中说话者的渐进生成既受到说出上下文可预测内容的压力,也受到说出有助于沟通目标内容的压力。在本研究中,我们专门探讨词汇集约束如何影响渐进式语言生成。  

在词汇约束下的沟通是一种常见的认知现象。许多社会中存在语言少数群体,他们对主流语言掌握有限,这影响了他们获取基本服务或参与经济的能力\@BBOPcitep\@BAP\@BBN\(Bleakley and Chin, 2004 (https://arxiv.org/html/2605.15365#bib.bib5); Grogger et al., 2020 (https://arxiv.org/html/2605.15365#bib.bib31)\)\@BBCP。与母语者相比,语言学习者(L2学习者)倾向于使用更少、更常见的词汇\@BBOPcitep\@BAP\@BBN\(Laufer, 1991 (https://arxiv.org/html/2605.15365#bib.bib49)\)\@BBCP。当L2学习者不知道某个特定词汇时,他们可能采用各种策略来表达意思,例如描述该概念的关键属性\@BBOPcitep\@BAP\@BBN\(Poulisse, 2011 (https://arxiv.org/html/2605.15365#bib.bib66)\)\@BBCP,或使用“万能”词或语义轻词作为替代\@BBOPcitep\@BAP\@BBN\(Dörnyei and Scott, 1997 (https://arxiv.org/html/2605.15365#bib.bib21)\)\@BBCP。这一现象表明,学习新词汇超过一定点后可能存在边际收益递减,因为通常只需词汇子集就足以沟通。  

另一个词汇约束沟通的常见情况是专家向门外汉解释复杂现象。以往研究探讨了好的解释应具备哪些特征\@BBOPcitep\@BAP\@BBN\(例如,Brewer et al., 2000 (https://arxiv.org/html/2605.15365#bib.bib82); Cruz and Lombrozo, 2025 (https://arxiv.org/html/2605.15365#bib.bib19); Chandra et al., 2024 (https://arxiv.org/html/2605.15365#bib.bib11); McCarthy and Keil, 2023 (https://arxiv.org/html/2605.15365#bib.bib61)\)\@BBCP。例如,\@BBOPcitet\@BAP\@BBNSulik et al. (2023 (https://arxiv.org/html/2605.15365#bib.bib71))\@BBCP认为好的解释应包含功能性(即某物是用来做什么的)或机制性(即某物是如何运作的)信息。除了信息类型,所使用的词语也很重要。例如,门外汉发现含有术语(只有特定专家群体才能理解的词汇)的解释更难理解\@BBOPcitep\@BAP\@BBN\(Bullock et al., 2019 (https://arxiv.org/html/2605.15365#bib.bib86); Cruz and Lombrozo, 2025 (https://arxiv.org/html/2605.15365#bib.bib19); Keuleers et al., 2015 (https://arxiv.org/html/2605.15365#bib.bib42)\)\@BBCP。目前尚不清楚具体词汇的使用如何随词汇约束变化,以及何种算法层面\@BBOPcitep\@BAP\@BBN\(Marr, 1982 (https://arxiv.org/html/2605.15365#bib.bib60)\)\@BBCP的语言生成模型能够捕捉词汇约束下生成语言的特征。  

在本工作中,我们定义了一个广阔的沟通目标空间,并评估了人类在可变词汇约束下生成的英语回答的属性,最严格时仅包含最常用的250个英语词汇。最近开发的技巧使我们能够从受用户自定义约束的语言模型中采样\@BBOPcitep\@BAP\@BBN\(Lipkin et al., 2025 (https://arxiv.org/html/2605.15365#bib.bib54); Loula et al., 2025 (https://arxiv.org/html/2605.15365#bib.bib57)\)\@BBCP,这为测试关于人类认知的算法层面假设提供了新的机会。特别是,我们可以操控约束生成的“贪心程度”:纯粹贪心算法偏向于局部高概率的延续,而近似全局最优的推理算法(如基于粒子的序贯蒙特卡洛,SMC)则避免了这些偏差,因此与语言生成中的事前规划更为一致。我们探究人类在词汇约束下的语言生成是否更接近贪心生成或全局最优推理。  

预视我们的结果:在我们的研究中,人类的表现随词汇量变化的趋势更接近贪心采样,而非基于SMC的约束生成(后者在处理极小词汇量时优于人类或贪心采样)。尽管如此,我们观察到得分最高的人类会显著更多地修正有效字符串前缀(一种非贪心行为),而得分低的人类则较少这样做。这表明人类处理约束生成的方式具有异质性:有些人会提前规划或修正答案,而另一些人则优先采用简单、贪心且不完美的回答。我们还观察到在不同词汇约束下词汇使用频率的可解释模式:语义“轻”词,如“do”、“thing”和“people”,在严格词汇约束下使用频率异常高,即使相对于其他允许的词汇也是如此。这一模式在语言模型的约束生成中得到了复现。最后,我们讨论了这些发现对心理语言学及其他广泛领域的启示。  

## 方法  

### 约束词汇定义  

我们定义一个大小为NN的约束词汇集,由英语中最常见的NN个词汇组成,依据wordfreqPython包\@BBOPcitep\@BAP\@BBN\(Speer, 2022 (https://arxiv.org/html/2605.15365#bib.bib70)\)\@BBCP提供的词表。对于列表中的每个词,使用lemminflectPython包(在spaCy\@BBOPcitep\@BAP\@BBN\(Honnibal et al., 2020 (https://arxiv.org/html/2605.15365#bib.bib37)\)\@BBCP中可用)将共享同一词元(lemma)的词形也纳入列表。例如,如果词形“drink”、“drank”、“drunk”、“drinks”或“drinking”中的任何一个出现在前NN个词汇中,则将该集合中的所有词形都包括在内。我们定义了七个词汇集,从250个词汇开始,每次翻倍直至16,000个词汇。作为参考,估计平均母语为美式英语的人熟悉42,000个词元,来自11,000个词族\@BBOPcitep\@BAP\@BBN\(Brysbaert et al., 2016 (https://arxiv.org/html/2605.15365#bib.bib8)\)\@BBCP。  

### 问题数据集  

为了模拟具有不同沟通目标的多种真实场景,我们收集了一个由192个问题组成的数据集,分为以下四个类别,每类48个问题:为什么(Why)、如何(How)、简单解释(ExplainSimple)和RedditELI5(像对五岁孩子解释)。为什么问题来源于\@BBOPcitet\@BAP\@BBNSulik et al. (2023 (https://arxiv.org/html/2605.15365#bib.bib71))\@BBCP的研究,该研究探讨了哪些特征能使解释更优。如何和简单解释数据集是使用固定句子模式(“How is/are/do/does/can/would [空白]?”和“Explain [空白] in simple terms”)从头创建的,旨在覆盖广泛的沟通主题,包括日常生活、体育和科学。RedditELI5问题来源于Reddit论坛“Explain Like I’m 5”上最热门的历史问题,并经过轻微长度和清晰度编辑。  

### 人类行为实验  

我们创建了一个在线行为实验,参与者使用一个界面回答上述数据集中的问题,该界面仅允许输入指定词汇内的词。虽然不是一个完全自然的任务,但该界面模拟了说话者遇到词汇限制的情况,迫使通过迂回说法或其他策略在线适应约束。参与者只能输入或删除(选择、替换和插入文本被阻止)。我们从Prolific招募了144名英语使用者,每人获得6美元报酬。该研究在作者所在机构批准的IRB协议下进行。每位参与者回答16个问题,首先回答4个无词汇约束的问题,然后依次回答词汇量为4000、1000和250的问题各4个。数据集中的每个问题在每种词汇量下由三位不同的参与者回答。参与者在90秒内未提交答案时会被提示进入下一个问题。我们记录了参与者的最终回答以及所有中间按键。  

### 使用Awrs的约束LLM生成  

自适应加权拒绝采样\@BBOPcitep\@BAP\@BBN\(Lipkin et al., 2025 (https://arxiv.org/html/2605.15365#bib.bib54)\)\@BBCP是一种序贯蒙特卡洛方法,用于从语言模型中逐步采样,并受用户定义的约束(实现为可对部分生成字符串评估的二元函数)。它通过并行维护多个假设(由加权的“粒子”表示)来实现。我们使用Awrs在GenLM\-control库中生成对提示的回答,利用自定义势函数对词汇集中的词施加硬约束。约束生成使用Llama\-3\.2\-1B\-Instruct模型进行,对于SMC推理使用16或32个粒子(分别记为Awrs\-16和Awrs\-32)。将粒子数设置为1时,该算法等价于局部贪心采样,即生成每一步仅维护一个假设。提供了包含指令和两个少样本示例的提示。人类和模型在宽松和严格约束下的示例回答见表1 (https://arxiv.org/html/2605.15365#Sx3.T1)。  

### 分析  

#### 回答质量的自动评估  

为了估计每个问题(人类和模型)的回答质量,我们使用一个被提示的LLM(Llama\-3\.1\-8B\-Instruct)在LLM作为评判者的范式\@BBOPcitep\@BAP\@BBN\(Gu et al., 2025 (https://arxiv.org/html/2605.15365#bib.bib32); Zheng et al., 2023 (https://arxiv.org/html/2605.15365#bib.bib80)\)\@BBCP下,按照7点李克特量表打分,并附上相应理由。对于每个问题,我们旨在近似E[f(X)] = ∑xf(X)pX(x)dx的值,其中X表示从约束回答分布中采样的随机变量,f(·)表示评分函数,pX表示X的概率密度函数,由归一化的SMC权重近似。为了提高计算效率,我们丢弃SMC中权重低于选定阈值0.01的样本,这些样本对总和贡献极小。我们对人类回答使用相同的评估流程,将每个回答视为一个样本(权重相等)。自动评估者是对回答质量的不完美代理,用于解决需要标注的大量模型和人类回答,为此收集全面的人类判断不切实际。虽然分配给人类生成与模型生成话语的绝对分数可能有偏差(例如,如果LLM评判者偏好LLM生成的回答),但我们主要关注评估分数随词汇量大小的“变化”。我们进行了一项标准化研究以验证LLM作为评判者的流程:随机抽取三分之一的问题(192个中的64个),对于四种不同词汇量的每一种,从人类、贪心模型和Awrs\-32模型中随机选取一个回答,由Prolific上的N=24名人类参与者评分,每人看到32个问答对(排除了参与过约束生成实验的用户)。人类评分者收到与LLM作为评判者相同的指示,在7点李克特量表上对回答质量进行评分。在标准化研究的问题子集中,自动LLM生成的评分与人类评分的Spearman ρ为0.60,表明自动流程捕捉了人类评分中相当大部分的方差。  

我们预测平均回答分数将随允许词汇的减少而单调下降,并评估人类回答的分数下降趋势是否与词汇量限制下的贪心或基于SMC的模型回答相似。  

#### 词频变化  

我们计算生成输出中每个词的出现频率,作为词汇量的函数。限制词汇必然从输出分布中移除低频词,但不会“直接”改变剩余词的相对频率。例如,为了补偿被移除的词,所有剩余词可能被稍微更频繁地使用,但剩余词的使用排名是否发生变化并不明显。然而,我们假设收紧词汇约束将系统性地改变使用词的频率分布,即使是在约束允许的词中。特别是,与低频词有高度“可替代性”的词,其使用排名将相对于可替代性低的词上升。

相似文章

大语言模型在低资源语言人文学科研究中的机遇与挑战

arXiv cs.CL

本文系统评估了大语言模型在低资源语言研究中的应用,分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发,以保护语言和文化遗产,同时解决数据可获取性、模型适应性和文化敏感性问题。

强化递归语言模型(18分钟阅读)

TLDR AI

本文探讨了利用强化学习微调小型(4B)递归语言模型(RLM)从科学文档中选取证据,结果表明经过强化学习训练的4B模型在模型大小和成本仅为其一小部分的情况下,达到了与Claude Sonnet 4.6相当的性能。

出于必要性的偏差:收敛式人工智能与人类验证中顺序处理的不可能性定理

arXiv cs.AI

本文证明了不可能性定理,表明由于因果掩码(causal masking)约束,首要效应(primacy effects)、锚定效应(anchoring)和顺序依赖性(order-dependence)是自回归语言模型中架构上必然存在的偏差。作者跨越12种前沿大语言模型验证了这些理论界限,并通过涉及工作记忆负荷的预注册人类实验证实了相关预测。

网络上的大型语言模型:资源受限下的协作智能

Hugging Face Daily Papers

本文探讨了分布式大型语言模型(LLMs)如何在设备和云端之间协同工作以应对资源限制的协作智能范式。文章涵盖了垂直方向的设备-云端协作、水平方向的多智能体协作、路由策略,以及在可扩展且可信的协作式人工智能方面的开放研究挑战。