评估大型语言模型的创造力:测试、局限与新前沿

arXiv cs.AI 论文

摘要

本文系统评估了针对大型语言模型的人类创造力测试,发现它们无法预测科学构思能力。文章介绍了DRAT,一种结合了聚合思维与发散思维的新测试,能够可靠地预测语言模型的科学构思能力。

arXiv:2605.13450v1 公告类型:新 摘要:衡量大型语言模型(LLMs)的创造力对于设计能够提升创造力的方法以及增强我们对这一能力的科学理解至关重要。为此,近年来对LLMs进行人类创造力测试变得普遍。尽管这些测试提供了一种方便且全自动的方式来评分“创造力”,但作为机器创造力衡量标准的有效性尚未得到证实,而且这些测试作为人类创造力预测指标的有效性本身就有限。为解决这一问题,我们首次开展了大规模系统性研究,评估人类创造力测试在预测LLMs在三个目标结构(创意写作、发散思维和科学构思)上的创造性成就的有效性。我们发现,发散关联任务(DAT)和条件性DAT分别是创意写作和发散思维的最佳预测指标,但测试有效性因结构而异,且没有单一测试能够良好预测所有结构。此外,与普遍看法相反,现有测试均无法可靠预测科学构思能力。受此启发,我们引入了发散远程关联测试(DRAT),这是一种在单一工具中评估聚合思维和发散思维的词汇空间测试。DRAT是首个且唯一一个能显著预测科学构思能力的LLMs创造力测试,且在主要设计选择上表现出稳健性。此外,DRAT的性能提升无法通过发散关联任务和远程关联测试的任何线性组合恢复,这表明在同一测试中评估发散思维和聚合思维对于可靠预测科学构思能力至关重要。
查看原文
查看缓存全文

缓存时间: 2026/05/14 06:16

# 评估大语言模型的创造力:测试、局限与前沿探索  
来源:https://arxiv.org/html/2605.13450  

###### 摘要  

量化大语言模型(LLM)的创造力,对于设计提升创造力的方法、以及增进我们对此能力的科学理解至关重要。为此,近年来将人类创造力测试应用于LLM的做法日益普遍。广义上,这些测试评估两种能力之一:**收敛思维**——针对约束性问题寻求单一正确答案的能力;**发散思维**——针对开放式任务生成大量独特回答的能力。尽管这些测试提供了一种便捷且自动化的“创造力”评分方式,但它们作为*机器*创造力衡量标准的有效性尚未得到验证,而且这些测试作为人类创造力预测指标的有效性本身也已有限。为解决这一问题,我们开展了首次大规模系统性研究,评估人类创造力测试在预测LLM三类目标构念(创意写作、发散思维、科学构思)的创造性成就方面的有效性。我们发现,发散联想任务(DAT)和条件性DAT分别是创意写作和发散思维的最佳预测指标,但测试有效性在不同构念间差异显著,且没有任何单一测试能良好预测所有构念。此外,与普遍认知相反,**现有测试均无法可靠预测科学构思能力**。受此问题启发,我们提出了**发散远程联想测试(DRAT)**,这是一种词汇空间测试,可在单一测试工具中同时评估收敛思维和发散思维。DRAT是首个且唯一能够显著预测科学构思能力的LLM创造力测试,并在主要设计选择上表现出稳健性。此外,DRAT的性能提升无法通过发散联想任务与远程联想测试的任何线性组合恢复,这表明在同一测试中评估发散和收敛思维对于可靠预测科学构思能力**至关重要**。

## 1 引言  

评估大语言模型(LLM)的创造力,对于开发提升创造力的方法、增进我们对此能力的科学理解、以及确保AI在人类协同创造环境中的稳健部署至关重要。近年来,将心理学的*人类*创造力评估重新用于评估LLM在这些任务上的表现已成为常见做法(Chen & Ding, 2023 (https://arxiv.org/html/2605.13450#bib.bib6); Bellemare-Pepin 等, 2024 (https://arxiv.org/html/2605.13450#bib.bib3); Wang 等, 2025 (https://arxiv.org/html/2605.13450#bib.bib54)),并据此进行人类与机器创造力的比较(Stevenson 等, 2022 (https://arxiv.org/html/2605.13450#bib.bib47); Cropley, 2023 (https://arxiv.org/html/2605.13450#bib.bib9))。广义上,此类测试评估创造过程中涉及的两种机制之一:**发散思维**是指针对开放式问题生成多个不同回答的能力;**收敛思维**则是指生成一个能够统一多个不同刺激的单一回答的能力(Dietrich, 2004 (https://arxiv.org/html/2605.13450#bib.bib10), 2019 (https://arxiv.org/html/2605.13450#bib.bib11); Simonton, 2023 (https://arxiv.org/html/2605.13450#bib.bib45))。

参见图注  
图1:LLM创造力随时间的变化。每个标记代表一个LLM,按其公开发布日期绘制,并按提供商着色。y轴为模型的构念级得分,其中每个底层基准在整个模型池中进行z评分,并报告构念内均值。灰色虚线是通过所有点的线性回归趋势。创意写作和科学构思分别以每年+1.22和+1.00 z得分的速度稳步上升,而发散思维则以每年−0.47 z得分的速度下降。较新的模型在发散思维上并非自动更优——**事实上,它们往往表现更差**。

发散思维的核心在于关联语义上相距遥远的概念的能力,这长期以来被认为是人类创造力的基础(Mednick, 1962 (https://arxiv.org/html/2605.13450#bib.bib25); Simonton, 2023 (https://arxiv.org/html/2605.13450#bib.bib45); Thagard, 2012 (https://arxiv.org/html/2605.13450#bib.bib49))。这促使人们使用诸如发散联想任务(DAT)(Olson 等, 2021 (https://arxiv.org/html/2605.13450#bib.bib31); Chen & Ding, 2023 (https://arxiv.org/html/2605.13450#bib.bib6); Cropley, 2023 (https://arxiv.org/html/2605.13450#bib.bib9); Bellemare-Pepin 等, 2024 (https://arxiv.org/html/2605.13450#bib.bib3); Wang 等, 2025 (https://arxiv.org/html/2605.13450#bib.bib54))等发散思维测试来评估LLM是否能够进行远距离关联。在DAT中,受试者被要求生成十个最大程度不相似的名词,得分由所有词对在嵌入模型(如GloVe)(Pennington 等, 2014 (https://arxiv.org/html/2605.13450#bib.bib34))下的平均成对语义距离给出。DAT可以自动化评分,为无需人类评分者即可评估创造力提供了便捷的方式。其他发散思维测试包括替代用途测试(Guilford, 1956 (https://arxiv.org/html/2605.13450#bib.bib15); Stevenson 等, 2022 (https://arxiv.org/html/2605.13450#bib.bib47))和托兰斯创造性思维测试(Torrance, 1974 (https://arxiv.org/html/2605.13450#bib.bib50)),这些测试均通过人类评分进行主观打分。在过去一年中,还提出了两种新的发散性创造力测试。条件性DAT(Nakajima 等, 2026 (https://arxiv.org/html/2605.13450#bib.bib29))通过衡量每个名词与给定“线索”词的相关性来扩展DAT,从而在新颖性之外纳入了适当性度量(Boden, 2004 (https://arxiv.org/html/2605.13450#bib.bib4); Maher, 2010 (https://arxiv.org/html/2605.13450#bib.bib23))。其次,平行联想链评估(PACE; Qiu & Hu, 2025 (https://arxiv.org/html/2605.13450#bib.bib36))受前向流度量(Gray 等, 2019 (https://arxiv.org/html/2605.13450#bib.bib14); Beaty 等, 2021 (https://arxiv.org/html/2605.13450#bib.bib2))启发,指示模型从多个种子词开始进行自由联想,并通过顺序语义距离度量对回答进行评分。

另一方面,收敛思维通常通过远程联想测试(Mednick, 1962 (https://arxiv.org/html/2605.13450#bib.bib25); Bowden & Jung-Beeman, 2003 (https://arxiv.org/html/2605.13450#bib.bib5))进行评估,该测试提供三个刺激词,要求生成一个能够连接所有三个词的单一词语(例如,给定 *c cottage, swiss*, 和 *cake*,回答“cheese”可应用于每个刺激)。近年来,还引入了各种其他针对LLM的收敛性创造力评估和基准,包括 Only Connect Wall 测试(Naeini 等, 2023 (https://arxiv.org/html/2605.13450#bib.bib27))和 CresOWLve 基准(Ismayilzada 等, 2026 (https://arxiv.org/html/2605.13450#bib.bib17))。

尽管这些创造力测试已被广泛应用于评估LLM,但此类测试作为*机器*创造力衡量标准的有效性尚未得到验证,且人类创造力测试作为人类创造力预测指标的效度本身已经有限(参见第2.1节 (https://arxiv.org/html/2605.13450#S2.SS1))。此外,PACE测试与创意写作基准表现出较强的斯皮尔曼等级相关(ρ≈0.74),但与通用模型能力也呈强相关(ρ≈0.66),因此尚不清楚PACE在多大程度上衡量了*独立于*通用能力所预言之外的创造性成就(Qiu & Hu, 2025 (https://arxiv.org/html/2605.13450#bib.bib36))。这种将通用能力与创造力混为一谈的风险不仅适用于PACE,也适用于*任何*LLM创造力测试。该领域尚未开展严格的、大规模的研究,以评估人类创造力测试是否真正衡量了LLM的创造性成果,以及它们是否以统计学上独立于通用模型能力所预言的方式进行衡量。此类研究的必要性因创造力能力并未随LLM改进而统一提升而加剧。图1 (https://arxiv.org/html/2605.13450#S1.F1) 显示,虽然创意写作和科学构思得分分别以每年+1.22和+1.00 z得分的速度上升,但发散思维实际上却下降了(每年−0.47 z得分)。

##### 我们的贡献  

为解决这一问题,我们开展了首次系统性研究,评估自动化创造力测试在预测LLM创造性成就方面的有效性。我们使用六个基准来衡量三个目标构念:(i) 创意写作、(ii) 发散思维、以及 (iii) 科学构思。在发现基准与通用能力之间的相关性高达r=0.98后,我们引入了两个评估标准:**有效性**,衡量测试与每个基准的原始相关系数r;以及**特异性**,即在对基准得分关于能力代理g进行残差化后的半偏相关系数r|g。后者评估了创造力测试在排除通用能力所解释的方差后,预测创造性成就方面的能力,从而解决了将通用能力与创造力测量混为一谈的风险。随后,在发现现有测试无法可靠预测科学构思能力后,我们引入了一种新颖的创造力测试,该测试同时评估发散和收敛思维,并且是科学创造力的显著预测指标。具体而言,我们做出以下贡献:

1. 我们开展了大规模系统性研究,评估人类创造力测试在预测LLM创造性成就方面的有效性。
2. 我们采用了两个指标来衡量测试的预测能力,既包括与基准的原始相关性(有效性),也包括独立于通用能力所预言的部分(特异性)。通过评估有效性和特异性,我们发现平行联想链评估(PACE)测试实际上是通用能力的代理——其在创意写作上非常显著的有效性(r≈0.73)下降为不显著的特异性(r|g≈0.15)。
3. 我们证明了创造力测试所能达到的最大有效性和特异性的上界,并发现现有创造力测试在所有基准上均远低于此边界。
4. 我们的实证发现表明,发散联想任务(DAT)是创意写作的最佳预测指标,条件性发散联想任务(CDAT)是发散思维的最佳预测指标,并且与普遍认知相反,现有测试均不是科学构思能力的可靠预测指标。
5. 我们提出了**发散远程联想测试(DRAT)**,这是一种远程联想测试与发散联想任务的混合体,将收敛和发散思维测量桥接到单一词汇空间测试中。DRAT是第一个在预测科学创造力方面实现显著有效性(r=+0.57, p≈0.008)和特异性(r|g=+0.50, p≈0.02)的测试。¹  
¹ 相关性和p值报告为多个嵌入的平均值,以确保稳健性,具体见第4节 (https://arxiv.org/html/2605.13450#S4)。
6. 我们发现DRAT的性能提升无法通过发散联想任务和远程联想测试的任何线性组合恢复,这表明在同一测试中评估发散和收敛思维对于可靠预测科学构思能力**至关重要**。

总体而言,我们的发现为每个测试适用于预测哪些构念提供了实践指导,刻画了未来测试的理论提升空间,并提出了一种新测试,提升了我们预测LLM科学创造力的能力。

##### 大纲。在第2节 (https://arxiv.org/html/2605.13450#S2)中,我们提供背景和激励问题,介绍本文研究的创造力测试和基准,描述我们的评估标准,并证明此类标准的上界。然后,第3节 (https://arxiv.org/html/2605.13450#S3)报告了我们跨三个构念对创造力测试的全面评估,发现现有测试无法可靠预测科学构思。第4节 (https://arxiv.org/html/2605.13450#S4)通过引入发散远程联想测试(DRAT)来解决这一问题,这是一种新颖的创造力测试,能够可靠预测科学构思能力。第5节 (https://arxiv.org/html/2605.13450#S5)讨论我们工作的更广泛影响,第6节 (https://arxiv.org/html/2605.13450#S6)分享本研究的局限性,第7节 (https://arxiv.org/html/2605.13450#S7)进行总结。

## 2 背景与框架  

在本节中,我们首先在第2.1节 (https://arxiv.org/html/2605.13450#S2.SS1)讨论激励问题,然后介绍我们研究的创造力测试(第2.2节 (https://arxiv.org/html/2605.13450#S2.SS2))和基准(第2.3节 (https://arxiv.org/html/2605.13450#S2.SS3))。之后,在第2.4节 (https://arxiv.org/html/2605.13450#S2.SS4)中,我们描述评估标准,并在第2.5节 (https://arxiv.org/html/2605.13450#S2.SS5)中证明每个标准所能达到的最大值的上界。

### 2.1 激励问题  

参见图注  
图2:概览。像发散联想任务这样的人类创造力测试通常用于评估LLM的“创造力”。尽管这些测试在人类中的外部有效性已通过与构思任务的适度相关性得到支持,但作为*机器*创造力衡量标准的有效性尚未得到充分证实。

近年来,原本为人类设计的创造力测试已被广泛应用于评估大语言模型(LLM)的“创造力”(Chen & Ding, 2023 (https://arxiv.org/html/2605.13450#bib.bib6); Cropley, 2023 (https://arxiv.org/html/2605.13450#bib.bib9); Bellemare-Pepin 等, 2024 (https://arxiv.org/html/2605.13450#bib.bib3))。各种策略,如改变采样参数、指示LLM扮演杰出创意人物的角色(Wang 等, 2025 (https://arxiv.org/html/2605.13450#bib.bib54))、提示工程以及提供明确的应试策略(Bellemare-Pepin 等, 2024 (https://arxiv.org/html/2605.13450#bib.bib3)),都已被探索用于提高创造力测试得分。此外,这些创造力测试已被用于直接声称LLM比人类*更*或*更不*具有创造力(Chen & Ding, 2023 (https://arxiv.org/html/2605.13450#bib.bib6); Bellemare-Pepin 等, 2024 (https://arxiv.org/html/2605.13450#bib.bib3); Wang 等, 2025 (https://arxiv.org/html/2605.13450#bib.bib54)),这预设了这些测试在两个群体中衡量的是同一构念。然而,这在几个方面存在问题。首先,**人类创造力测试作为*机器*创造力衡量标准的有效性尚未得到验证**。人类智力测量通常不适合天真地应用于LLM(Chollet, 2019 (https://arxiv.org/html/2605.13450#bib.bib8)),因为这些测试本身并不对机器具有构念效度。

相似文章

评估大语言模型的发展性认知能力

arXiv cs.AI

本文引入了发展性句子补全测试(DSCT),用于评估大语言模型识别文本中发展性认知阶段的能力。研究发现,模型在合成人设上的表现优于真实人类回答。

大语言模型在低资源语言人文学科研究中的机遇与挑战

arXiv cs.CL

本文系统评估了大语言模型在低资源语言研究中的应用,分析了在语言变异、历史文献、文化表达和文学分析等方面的机遇与挑战。研究强调了跨学科合作和定制化模型开发,以保护语言和文化遗产,同时解决数据可获取性、模型适应性和文化敏感性问题。