CreativityNeuro:引导语言模型权重以提升发散性思维并减少模式崩溃

arXiv cs.AI 论文

摘要

介绍CreativityNeuro,一种无需数据的方法,通过引导语言模型权重来增强发散性思维并减少模式崩溃,在不进行重新训练或微调的情况下,在创造力评估中实现了显著改进。

arXiv:2607.01433v1 公告类型:新 摘要:发散性思维是创造力的关键方面,然而大型语言模型(LLMs)在面对开放性问题时往往生成相似的回答,这种现象被称为人工蜂巢效应。本文介绍CreativityNeuro,一种无需数据的方法,通过对比权重引导来增强LLMs的发散性思维。我们在多个创造力评估中评估了该方法并报告了几项主要发现。在发散性关联任务(DAT)中,CreativityNeuro的性能提升了多达14个人类百分位点。其次,在关于替代用途测试(AUT)和Task Task的大规模人类评估(N=720)中,CreativityNeuro在原创性、惊喜度和创造力方面取得了显著改进,并迁移到了更长篇幅和更开放的任务中。重要的是,我们发现所有三个任务中,CreativityNeuro明显减少了模式崩溃的度量。此外,激活引导在DAT上达到了与CreativityNeuro相当的性能,但未迁移到AUT和Task Task,这证明了权重空间引导在泛化到未见任务上的有效性。总之,CreativityNeuro无需行为数据、重新训练或基于梯度的微调,即可改善发散性思维并减少模式崩溃,为提升LLMs在创造性领域的表现提供了一种直接的方法。
查看原文
查看缓存全文

缓存时间: 2026/07/03 05:44

# 引导语言模型权重以改善发散思维并减少模式崩溃
来源: https://arxiv.org/html/2607.01433
Samuel Schapiro 伊利诺伊大学香槟分校 核心Francisco Park大脑科学中心,哈佛大学 CBS-NTT智能物理项目,哈佛大学 Prior Computers & Felix Sosa Prior Computers & Lav R. Varshney 人工智能创新研究所,石溪大学

###### 摘要

发散思维是创造力的关键方面,然而大型语言模型(LLM)倾向于对开放式问题生成相似的回答,这被称为“人工蜂群思维”效应。本文提出CreativityNeuro,一种通过对比权重引导来增强LLM发散思维的无数据方法。我们在多项创造力评估中评估了该方法,并报告了几个主要发现。在词汇空间创造力测试——发散联想任务(DAT)上,CreativityNeuro将表现提升了高达14个人类百分位点。其次,在一项关于替代用途测试(AUT)和任务任务的大规模人工评估(N=720)中,CreativityNeuro在原创性、惊喜度和创造力方面取得了显著提升,并能迁移到更长篇幅、更开放式的任务中。重要的是,我们发现,在所有三个任务中,CreativityNeuro显著减少了模式崩溃的度量。此外,激活引导在DAT上达到了与CreativityNeuro相当的性能,但未能迁移到AUT和任务任务,这证明了权重空间引导在泛化到未见任务上的有效性。总之,CreativityNeuro无需行为数据、重新训练或基于梯度的微调即可改善发散思维并减少模式崩溃,为增强LLM在创造性领域的表现提供了一种直接的方法。

参见图注:图1:CreativityNeuro(CN)流程。给定一对对比性创造性提示,CN计算参数重要性得分,选择一组稀疏的与创造力相关的参数,并应用缩放的权重扰动——无需行为数据集或基于梯度的微调。CN改善了各种任务上的发散思维。子图(b)可视化了CN“跳出‘框框’”思考(即,基线DAT响应的凸包),尽管基线响应落在子图(a)中CN的凸包内。

## 1 引言

大型语言模型(LLM)的最新进展重新激发了对一个长期问题的兴趣:*我们如何理解并增强智能系统中的创造力?*(Boden,2004 (https://arxiv.org/html/2607.01433#bib.bib7))。虽然这个问题在认知科学中有着深厚的根基(Quetelet,1842 (https://arxiv.org/html/2607.01433#bib.bib43); Galton,1870 (https://arxiv.org/html/2607.01433#bib.bib44); Hadamard,1954 (https://arxiv.org/html/2607.01433#bib.bib4); Guilford,1956 (https://arxiv.org/html/2607.01433#bib.bib27); Mednick,1962 (https://arxiv.org/html/2607.01433#bib.bib2); Koestler,1964 (https://arxiv.org/html/2607.01433#bib.bib16); Simonton,2004 (https://arxiv.org/html/2607.01433#bib.bib17); Dietrich, Arne,2004 (https://arxiv.org/html/2607.01433#bib.bib3); Fauconnier and Turner,2008 (https://arxiv.org/html/2607.01433#bib.bib38); Rothenberg,2014 (https://arxiv.org/html/2607.01433#bib.bib45)),现在它越来越多地在大型生成模型的背景下得到研究(Maher,2010 (https://arxiv.org/html/2607.01433#bib.bib39); Varshney,2019 (https://arxiv.org/html/2607.01433#bib.bib10); Schapiro et al.,2025 (https://arxiv.org/html/2607.01433#bib.bib40))。近期工作已开始评估LLMs参与创造性和开放式任务的能力(Si et al.,2024 (https://arxiv.org/html/2607.01433#bib.bib46);2025 (https://arxiv.org/html/2607.01433#bib.bib47); Sanyal et al.,2025 (https://arxiv.org/html/2607.01433#bib.bib58); Bellemare-Pepin et al.,2024 (https://arxiv.org/html/2607.01433#bib.bib23); Wang et al.,2025 (https://arxiv.org/html/2607.01433#bib.bib1);2024 (https://arxiv.org/html/2607.01433#bib.bib48)),其中一个反复出现的问题浮出水面:模型倾向于对开放式问题生成相似的响应,这被称为*人工蜂群思维*效应(Jiang et al.,2025 (https://arxiv.org/html/2607.01433#bib.bib37))。

在创造力文献中,通常区分*发散思维*(为问题生成多种不同解决方案的能力)和*收敛思维*(找到统一多种不同刺激的单一正确解决方案的能力)(Dietrich,2019 (https://arxiv.org/html/2607.01433#bib.bib12); Guilford,1956 (https://arxiv.org/html/2607.01433#bib.bib27))。研究增强发散思维的方法为鼓励模型响应的多样性和新颖性提供了一条有希望的途径,以对抗迄今已出现的同质化问题。在此,我们引入一种权重空间引导方法,用于改善LLM的发散思维。我们的方法优于先前的方法——包括解码、提示和激活引导——并且能更好地泛化到未见任务,无需行为数据或基于梯度的微调。具体来说,我们的主要贡献如下:

1. 在第3节 (https://arxiv.org/html/2607.01433#S3)中,我们介绍了CreativityNeuro,一种用于引导创造性行为的无数据方法。
2. 在第4节 (https://arxiv.org/html/2607.01433#S4)中,我们发现CreativityNeuro显著改善了发散联想任务(DAT)上的发散思维,优于提示、激活引导和解码基线等基方法。
3. 在第5节 (https://arxiv.org/html/2607.01433#S5)中,我们在替代用途测试(AUT)和任务任务(TT)上进行了一项大规模人工评估,发现CreativityNeuro在AUT和TT上提升了原创性、惊喜度和创造力,而激活引导在AUT和TT上的迁移效果不佳。
4. 在第6节 (https://arxiv.org/html/2607.01433#S6)中,我们发现CreativityNeuro在所有三个任务上减少了模式崩溃。
5. 在第7节 (https://arxiv.org/html/2607.01433#S7)中,我们发现了发散思维和事实推理在权重空间中不可分离的证据。

## 2 相关工作

在介绍我们的方法之前,我们先简要回顾相关工作。

评估LLM的创造力。先前的工作已经评估了LLM在发散创造力评估上的表现——包括DAT(Olson et al.,2021 (https://arxiv.org/html/2607.01433#bib.bib9))、AUT(Guilford,1956 (https://arxiv.org/html/2607.01433#bib.bib27))、任务任务(Chu et al.,2024 (https://arxiv.org/html/2607.01433#bib.bib36))——以及在各种真实场景中,如科学构思(Si et al.,2024 (https://arxiv.org/html/2607.01433#bib.bib46);2025 (https://arxiv.org/html/2607.01433#bib.bib47))和开放式用户查询(Jiang et al.,2025 (https://arxiv.org/html/2607.01433#bib.bib37))。在DAT上,LLM可以达到人类90百分位以上的分数(Bellemare-Pepin et al.,2024 (https://arxiv.org/html/2607.01433#bib.bib23); Wang et al.,2025 (https://arxiv.org/html/2607.01433#bib.bib1)),而Stevenson et al. (2022 (https://arxiv.org/html/2607.01433#bib.bib19))研究了GPT-3在AUT上的表现,并得出结论认为人类表现出更强的创造力,模型响应的原创性较弱。最后,Chu et al. (2024 (https://arxiv.org/html/2607.01433#bib.bib36))发现,模型在任务任务上生成的目标,由一大组人工评分员评估,获得了与人类生成目标相似的创造力评分。

提升LLM的创造力。与这项工作最相似的是,Olson et al. (2024 (https://arxiv.org/html/2607.01433#bib.bib13))提出了一种激活引导方法来增强LLM的创造力,尽管改进仅针对单一模型、任务和人工标注者建立。我们的研究是第一个展示一种引导方法能够改善创造性行为并在大规模人工研究中验证其有效性的。除了引导之外,其他提升LLM创造力的方法包括提示框架(Nguyen and Singla,2025 (https://arxiv.org/html/2607.01433#bib.bib65); Morain and Ventura,2025 (https://arxiv.org/html/2607.01433#bib.bib32); Wang et al.,2025 (https://arxiv.org/html/2607.01433#bib.bib1))、改变解码参数如温度(Peeperkorn et al.,2024 (https://arxiv.org/html/2607.01433#bib.bib66)),以及在偏好数据上使用强化学习(RL)(Wei et al.,2025 (https://arxiv.org/html/2607.01433#bib.bib73))。与通常需要标注行为数据的引导和基于RL的方法不同,我们的方法完全在无数据情况下运行。

算法1 CreativityNeuro
输入: 模型权重 \{W_l\}_{l=1}^L; 创造性提示 P^{cre}; 非创造性提示 P^{non-cre}; 重要性阈值 ρ; 缩放因子 α
输出: 修改后的权重 \{W'_l\}_{l=1}^L,其中创造力权重被放大

1: 对于每一层 l do
2:   在 P^{cre}, P^{non-cre} 上运行前向传播,通过以下方式获得重要性得分 S^{cre}_{l,ij}, S^{non-cre}_{l,ij}:
      S_{l,ij}(P) = ∑_{b=1}^{|P|} ∑_{t=1}^{T_b} |W_{l,ij}| · ‖x^{(b,t)}_{l,j}‖_2  步骤 1: 计算权重重要性得分
      对于提示 b 和提示 b 内的 token 位置 t
3: 结束 for
4: 对于每一层 l do
5:   C_l ← 按 S^{cre}_{l,ij} 排序的前 ρ 权重   步骤 2: 提取创造性特定子空间
6:   N_l ← 按 S^{non-cre}_{l,ij} 排序的前 ρ 权重
7:   M^{cre-spec}_{l,ij} ← I[(i,j) ∈ C_l \ N_l]
8: 结束 for
9: 对于每一层 l do
10:   W'_l ← W_l ⊙ (1 + α · M^{cre-spec}_l)   步骤 3: 创造性参数缩放
11: 结束 for
12: 返回 \{W'_l\}_{l=1}^L

表1: 对比提示集示例。每个集合包含用于算法1中参数重要性评分的创造性(P^{cre})和非创造性(P^{non-cre})提示。

## 3 方法

最近,Christ et al. (2025 (https://arxiv.org/html/2607.01433#bib.bib22)) 展示了参数重要性方法可用于识别和放大参与数学推理的权重,在MATH基准测试上提高了4-17% (Hendrycks et al.,2021 (https://arxiv.org/html/2607.01433#bib.bib25))。与数学推理不同,数学推理可以在结构化基准(如MATH和GSM8K)上引发和评估,而创造力是*响应*的属性,而非问题的属性。开放式提示,例如Jiang et al. (2025 (https://arxiv.org/html/2607.01433#bib.bib37))中使用的,允许大量潜在创造性的补全,但新颖性和有用性是在输出上测量的(Varshney,2019 (https://arxiv.org/html/2607.01433#bib.bib10); Maher,2010 (https://arxiv.org/html/2607.01433#bib.bib39); Boden,2004 (https://arxiv.org/html/2607.01433#bib.bib7)),而非输入本身。因此,我们的主要方法论创新是一个将MathNeuro扩展到认知领域的框架,在该领域中,目标行为可以被提示,但不存在结构化数据集,这使得CreativityNeuro完全无数据。

对比提示集 MathNeuro依赖于来自MATH和GSM8K的问题来获取用于参数重要性评分的输入。由于创造力没有类似的数据集,我们转而构建*对比提示集*:简短的指令,引导模型朝向创造性(P^{cre})与非创造性(P^{non-cre})行为。我们使用了六个这样的集合,涵盖多种风格——dat, storytelling, ideation, problem solving, open-ended, 和 minimal——其中minimal仅包含两到五个词的指令(例如,*Surprise me* 对比 *Be precise*)。代表性示例在表1中给出,所有六个提示集在表2中给出。因此,CreativityNeuro不需要数据集、行为生成、评分响应或标注示例,使其完全无数据,这与Christ et al. (2025 (https://arxiv.org/html/2607.01433#bib.bib22))不同。

参数重要性评分 我们使用与Christ et al. (2025 (https://arxiv.org/html/2607.01433#bib.bib22)) 相同的Wanda风格(Sun et al.,2023 (https://arxiv.org/html/2607.01433#bib.bib62))参数重要性评分,在此重述以保持完整性。这是通过取权重幅度和激活范数的乘积,并在提示集b及其token位置t上求和得到的:S_{l,ij} = ∑_{b,t} |W_{l,ij}| · ‖x^{(b,t)}_{l,j}‖_2,其中 x^{(b,t)}_{l,j} 是提示b中第t个token在层l的第j个输入激活。我们在创造性提示P^{cre}和非创造性提示P^{non-cre}上计算重要性得分。然后,我们通过选择按创造性重要性排序的前ρ百分比的权重,且这些权重不同时出现在非创造性提示的前ρ百分比中,来隔离创造性特定参数。这个集合差操作(C_l \ N_l)确保我们识别出与创造性行为唯一相关的参数。在推理时,我们将C_l \ N_l中的权重乘以缩放因子(1+α)。超参数ρ和α分别控制重要性阈值和缩放强度。完整过程在算法1中给出。

## 4 发散联想任务实验

参见图注:图2:CreativityNeuro(CN)在多个模型和提示集上改善了发散思维。给定人类参考分布(Wang et al.,2025 (https://arxiv.org/html/2607.01433#bib.bib1)) (N=9,297, μ=78.26, σ=6.73),我们报告:(a) 在T∈{0.9,1.0,1.2}上平均的DAT人类百分位数(±SEM),针对CN、CAA以及最强的基于抽样的基线方法;虚线表示CN和CAA的跨模型均值。(b) 热图显示CreativityNeuro模型在各提示集上的百分位数提升(Δ%ile),在测试的每个温度(0.9, 1.0, 1.2)下具有统计显著性(p<0.05)的以星号标记。(c) CDF显示CreativityNeuro模型在最佳提示集上的DAT分数。我们测试了三个开放权重模型家族(Phi, Llama, Qwen)的指令微调模型,总共六个模型,参数规模为3B、4B、7B、8B和14B:LLaMA (3.2-3B-Instruct, 3.1-8B-Instruct) (Grattafiori et al.,2024 (https://arxiv.org/html/2607.01433#bib.bib33)), Qwen-2.5 (7B-Instruct, 14B-Instruct) (Yang et al.,2025 (https://arxiv.org/html/2607.01433#bib.bib35)), 和 Phi (3.5-mini-Instruct (4B), 3-medium-4k-Instruct (14B))。

相似文章

评估大型语言模型的创造力:测试、局限与新前沿

arXiv cs.AI

本文系统评估了针对大型语言模型的人类创造力测试,发现它们无法预测科学构思能力。文章介绍了DRAT,一种结合了聚合思维与发散思维的新测试,能够可靠地预测语言模型的科学构思能力。

推进大型多模态模型中的创造性物理智能

arXiv cs.AI

本文介绍了MM-CreativityBench,这是一个用于在物理约束环境下评估大型多模态模型创造性工具使用的基准,并提出了基于功能可见性的对齐方法,利用直接偏好优化来减少幻觉并提高基于事实的推理。

IntElicit:通过对话策略优化激发和评估情境化创造力

arXiv cs.AI

IntElicit 是一个框架,利用带有分解过程奖励机制的对话策略优化,通过自适应AI访谈来激发和评估情境化创造力,减少领域知识和参与度等混杂因素。实验表明,与静态评估方法相比,它改善了创造性成果。