IntElicit:通过对话策略优化激发和评估情境化创造力
摘要
IntElicit 是一个框架,利用带有分解过程奖励机制的对话策略优化,通过自适应AI访谈来激发和评估情境化创造力,减少领域知识和参与度等混杂因素。实验表明,与静态评估方法相比,它改善了创造性成果。
arXiv:2606.12086v1 Announce Type: new
摘要:情境化评估为评估创造力提供了较高的生态效度,但也引入了一个关键挑战:观察到的表现可能与认知能力(领域知识)和能动性(参与意愿)相混淆。与此同时,在生成式AI时代,创造性问题解决越来越多地发生在工具中介和人机交互环境中,这使得完全静态的评估与当代创造性实践不再完全吻合。为解决这些问题,本文提出了IntElicit,一个通过对话策略优化来激发和评估情境化创造力的框架。IntElicit 作为一个受约束的自适应AI面试官:它在多轮交互中提供非指导性的知识和能动性支架,以减少非创造性的混杂因素,同时保留参与者对所评估创造性内容生成的责任。具体来说,为了应对开放式教育对话中的稀疏奖励和潜在奖励黑客(例如,答案灌输),IntElicit 引入了一种分解过程奖励机制。该机制将策略与教学式激发对齐,奖励那些引出参与者推理的提示,而不是代表他们生成最优答案。大量实验,包括参与者模拟和一项人类受试者研究(N=64),表明IntElicit 在激发创造性成果方面优于专家设计的基线。综合来看,结果表明交互式激发能够揭示静态FPSP式评估可能遗漏的创造潜力,为AI中介学习环境中的情境化创造力评估提供了一种形成性和诊断性的视角。
查看缓存全文
缓存时间: 2026/06/11 13:50
# IntElicit:通过对话策略优化引发和评估情境化创造力 来源:https://arxiv.org/html/2606.12086 Mingjia Li1,†, Jin Wu1,†, Hong Qian1,2,∗, Wenhao Huang1, Yiyang Huang1Yiwen Zhang1, Chanjin Zheng1, Xiangfeng Wang1, Aimin Zhou1,2, Jiajun Guo11华东师范大学2上海创新研究院†同等贡献。∗通讯作者:[email protected] ###### 摘要 情境化评估为评估创造力提供了较高的生态效度,但也引入了一个关键挑战:观察到的表现可能与认知能力(领域知识)和能动性(参与意愿)相混淆。与此同时,在生成式AI时代,创造性问题解决越来越多地发生在工具中介和人机交互的环境中,这使得完全静态的评估与当代创造性实践的契合度降低。为解决这些问题,本文提出了 **IntElicit**,一个通过对话策略优化来引发和评估情境化创造力的框架。IntElicit 作为一个受限的自适应 AI 面试官:它在多轮交互中提供非指导性的知识和能动性支架,以减少非创造性的混淆因素,同时保留参与者生成待评估创造性内容的责任。具体而言,为了解决开放型教育对话中的稀疏奖励和潜在奖励黑客行为(例如,答案听写),IntElicit 引入了一种分解过程奖励机制。该机制使策略与教学引导对齐,奖励那些旨在引出参与者推理而非替其生成最优答案的提示。包括参与者模拟和一项人类受试者研究(N=64)在内的大量实验表明,IntElicit 在引出的创造性成果上优于专家设计的基线。这些结果共同表明,交互式引发能够揭示静态 FPSP 式评估可能遗漏的创造潜力,为 AI 中介学习情境下的情境化创造力评估提供了一个形成性和诊断性的视角。 **关键词** 情境化创造力评估 · 交互式引发 · 对话策略优化 · 大型语言模型 · 形成性评估 ## 1 引言 创造力,通常被定义为生成既新颖又实用的产品的能力,被广泛认为是21世纪的关键能力 (Glăveanu and Petre,2010 (https://arxiv.org/html/2606.12086#bib.bib1); Taguma and Barrera,2019 (https://arxiv.org/html/2606.12086#bib.bib3); Llego,2022 (https://arxiv.org/html/2606.12086#bib.bib4))。随着人工智能日益自动化常规认知任务,人类进行创造性问题解决的能力已成为教育和劳动力发展的核心 (Brynjolfsson and McAfee,2014 (https://arxiv.org/html/2606.12086#bib.bib5))。然而,尽管创造力很重要,但在具有教育意义的语境中评估它仍然困难,因为创造性表现不仅受想法生成的影响,还受背景知识、信心、参与度以及要求学生作答的互动条件的影响。这一挑战呼应了更广泛的担忧,即传统评估通常只提供离散的表现快照,可能不足以适应学习者的背景和当代AI中介实践 (Swiecki et al.,2022 (https://arxiv.org/html/2606.12086#bib.bib47))。 传统的创造力评估方法主要分为两大类:自我报告量表和表现测试。自我报告测量常常受到社会主观偏差的影响,个体可能因邓宁-克鲁格效应 (Kruger and Dunning,1999 (https://arxiv.org/html/2606.12086#bib.bib24)) 或社会期望性 (Paulhus,1984 (https://arxiv.org/html/2606.12086#bib.bib6); Silvia et al.,2012 (https://arxiv.org/html/2606.12086#bib.bib7)) 等因素而错误判断自己的能力。相反,表现测试试图客观地衡量创造力,但其情境保真度差异很大。常见的方法范围从简单的任务,如替代用途任务 (AUT) (Runco and Acar,2012 (https://arxiv.org/html/2606.12086#bib.bib8)) 和现实呈现问题 (RPP) (Chand and Runco,1993 (https://arxiv.org/html/2606.12086#bib.bib20)),到高度情境化的框架,如未来问题解决项目 (FPSP) (Crabbe,1982 (https://arxiv.org/html/2606.12086#bib.bib17),1989 (https://arxiv.org/html/2606.12086#bib.bib18); Torrance et al.,1976 (https://arxiv.org/html/2606.12086#bib.bib19))。虽然 AUT 和 RPP 被广泛使用,但它们简单的指令(例如,“列出砖块的用途”)存在生态效度有限 (Baer,2015 (https://arxiv.org/html/2606.12086#bib.bib23); Zeng et al.,2011 (https://arxiv.org/html/2606.12086#bib.bib21)) 的问题,未能捕捉现实世界问题解决的复杂本质。为了弥补这一生态效度差距,我们的工作与 FPSP 范式保持一致,该范式在沉浸式、逼真的情境中评估参与者。然而,尽管 FPSP 提高了情境保真度,但完全静态的实现仍面临两个限制。首先,在复杂情境中的表现可能与认知和能动因素纠缠在一起,例如领域知识、任务理解、信心和详细阐述的意愿 (Runco and Chand,1995 (https://arxiv.org/html/2606.12086#bib.bib22))。因此,参与者表现不佳可能并非因为他们缺乏创造潜力,而是因为他们在缺乏支持的测试条件下未能外化该潜力。其次,在生成式AI时代,创造性问题解决越来越多地发生在工具中介和人机协作环境中,人们通过互动来澄清问题、探索替代方案和完善想法 (Rezwana and Maher,2023 (https://arxiv.org/html/2606.12086#bib.bib45); Noy and Zhang,2023 (https://arxiv.org/html/2606.12086#bib.bib46); Oliveira et al.,2025 (https://arxiv.org/html/2606.12086#bib.bib48))。从真实评估的角度来看,评估情境应类似于预期使用目标能力的实践类型。交互式引发通过使参与者的推理在自适应、非指导性支架下更可观察,并通过建模一种更接近当代AI中介创造性工作的评估形式,来解决这两个限制。因此,我们认为 **交互式引发** 是情境化创造力评估的必要延伸。 参见图注图 1:研究动机和提出的 IntElicit 框架概览。(a) **生态效度差距**:静态创造力评估可能遗漏情境化问题解决任务中动态的、过程导向的推理。(b) **交互式引发范式**:AI 面试官提供自适应支架(例如,知识支持和能动性引发),以减少评估期间的非创造性混淆因素,同时保留参与者生成想法的责任。(c) **IntElicit 架构**:该框架结合了多维度创造力指标、分解过程奖励和多样化的参与者模拟器,以支持开放型对话策略优化。 如图1 (https://arxiv.org/html/2606.12086#S1.F1) 所示,我们的方法首先将交互式引发作为对生态效度差距的回应,然后将其实现为用于情境化创造力评估的自适应 AI 面试官框架。为实现这一愿景,我们提出 **IntElicit**,一个由对话策略优化驱动的 **交互式引发** 框架,充当 **自适应 AI 面试官**。重要的是,AI 的角色不是共同创作创造性回应,也不是在任务期间训练参与者变得更具创造性。相反,IntElicit 充当一个受限的评估支架:它可以帮助参与者澄清任务上下文、保持参与度、详细阐述他们的推理并反思替代方案,但要评估的创造性内容必须由参与者生成。虽然大型语言模型 (LLM) 为此类 AI 面试官提供了有前景的基础 (OpenAI,2023 (https://arxiv.org/html/2606.12086#bib.bib12); Kasneci et al.,2023 (https://arxiv.org/html/2606.12086#bib.bib13)),但优化它们以扮演这一角色面临着重大技术挑战。主要障碍是优化用于非可验证、开放型目标的对话策略。与数学或编码等具有可验证奖励的领域不同 (Ouyang et al.,2022 (https://arxiv.org/html/2606.12086#bib.bib14); Lightman et al.,2024 (https://arxiv.org/html/2606.12086#bib.bib15); Rafailov et al.,2023 (https://arxiv.org/html/2606.12086#bib.bib16)),创造力评估是主观且对过程敏感的。此外,在多轮评估中,奖励信号通常是稀疏的(仅在结束时获得)。这种稀疏性可能导致“奖励黑客行为”,即旨在最大化最终创造力分数的 AI 面试官可能直接向参与者口述高质量的想法,而非引出这些想法,这违背了评估的目的。最后,智能体必须稳健,能够适应多样化的参与者行为,从需要鼓励的“沉默寡言”的受访者到偏离主题的“发散性”受访者。IntElicit 通过一种协同方法来解决这些挑战。首先,由专家心理学家按照 FPSP 范式设计了 16 个沉浸式评估场景。基于此背景,构建了一个多维度指标系统来操作化情境化创造性表现。为了防止奖励黑客行为并支持非指导性引发,我们引入了一种基于专家教学策略(例如,奖励鼓励参与者识别问题、论证想法和反思替代方案的提示)的分解过程奖励机制。我们使用多样化的参与者模拟器来训练策略,创建一个受控环境,其中填充了表现出不同参与模式的模拟参与者。 本文的贡献如下。首先,我们引入 **交互式引发** 作为情境化创造力评估的一种形成性和诊断性范式,旨在减少由知识差距或低能动性引起的假阴性,同时保留参与者作为创造性想法来源的角色。其次,我们提出 **IntElicit**,一个对话策略优化框架,用于学习针对开放型、多轮创造力任务的自适应评估支架。第三,我们引入一种 **分解过程奖励** 机制,奖励具有教学意义的引发,并阻止答案听写。最后,通过模拟参与者、定性边界案例分析以及一项包含 64 名参与者的人类受试者研究,我们表明 IntElicit 能引出更高质量的创造性输出,并能适应诸如沉默寡言和离题等多样化的参与者行为。 ## 2 相关工作 ### 2.1 创造力评估 创造力评估传统上依赖于聚焦发散思维 (DT) 的心理测量工具。最广泛采用的范式包括替代用途任务 (AUT) (Runco and Acar,2012 (https://arxiv.org/html/2606.12086#bib.bib8))、现实呈现问题 (RPP) (Chand and Runco,1993 (https://arxiv.org/html/2606.12086#bib.bib20)) 和托伦斯创造性思维测试 (TTCT) (Torrance,1966 (https://arxiv.org/html/2606.12086#bib.bib2))。这些测试通常采用静态提示(例如,“列出砖块的不寻常用途”),并根据流畅性、灵活性和独创性来评估回应。随着包括 LLM 在内的计算语言技术的出现,最近的研究试图使用语义距离度量 (Beaty and Johnson,2021 (https://arxiv.org/html/2606.12086#bib.bib25)) 或通过提示 LLM 作为评估者 (Luchini et al.,2025 (https://arxiv.org/html/2606.12086#bib.bib26); Organisciak et al.,2023 (https://arxiv.org/html/2606.12086#bib.bib27); Kern et al.,2024 (https://arxiv.org/html/2606.12086#bib.bib28)) 来自动化这些测试的评分,显著提高了评估效率。有关自动创造力评估的全面综述,请参阅 (Bahg et al.,2025 (https://arxiv.org/html/2606.12086#bib.bib29))。 然而,批评者认为传统的 DT 测试缺乏 **生态效度**,因为它们将创造性思维与现实世界问题解决中复杂的、特定领域的上下文分离开来 (Zeng et al.,2011 (https://arxiv.org/html/2606.12086#bib.bib21); Baer,2015 (https://arxiv.org/html/2606.12086#bib.bib23))。为了弥合这一差距,引入了现实呈现问题 (RPP) (Chand and Runco,1993 (https://arxiv.org/html/2606.12086#bib.bib20)) 和情境判断测试 (SJT) (Herde et al.,2019 (https://arxiv.org/html/2606.12086#bib.bib30)) 来模拟更实际的场景。未来问题解决项目 (FPSP) (Crabbe,1982 (https://arxiv.org/html/2606.12086#bib.bib17),1989 (https://arxiv.org/html/2606.12086#bib.bib18); Torrance et al.,1976 (https://arxiv.org/html/2606.12086#bib.bib19)) 代表了这一方向上的重大进展,采用沉浸式、多阶段的未来情境,评估参与者在受限叙事中识别挑战并提出创新解决方案的能力。 尽管 FPSP 式评估具有高保真度,但在自动化时面临一个关键挑战:**创造力与认知和能动因素的混淆** (Runco and Chand,1995 (https://arxiv.org/html/2606.12086#bib.bib22))。参与者未能产生创造性解决方案可能源于缺乏领域知识、任务理解、信心或详细阐述的意愿,而非缺乏创造潜力。人类面试官可以通过动态澄清任务、鼓励详细阐述、将注意力重定向到相关场景约束来部分解决这个问题。然而,现有的计算方法通常将创造力评估视为静态的输入-输出映射,未能解决这些非创造性混淆因素。随着创造性问题解决越来越多地发生在 AI 中介环境中,这一限制变得更加突出,在这种环境中,与智能工具的互动是真实实践的一部分 (Rezwana and Maher,2023 (https://arxiv.org/html/2606.12086#bib.bib45); Noy and Zhang,2023 (https://arxiv.org/html/2606.12086#bib.bib46))。因此,我们的工作提出了一个交互式引发框架,充当受限的 AI 面试官:它通过多轮知识和能动性支架来减少非创造性混淆因素的影响,同时保留参与者作为被评估创造性想法的来源。 ### 2.2 多轮对话优化 优化用于有目的互动的对话智能体已从监督微调 (SFT) 发展到基于人类/AI反馈的强化学习 (RLHF/RLAIF) (Ouyang et al.,2022 (https://arxiv.org/html/2606.12086#bib.bib14); Bai et al.,2022a (https://arxiv.org/html/2606.12086#bib.bib31),b (https://arxiv.org/html/2606.12086#bib.bib32); Lee et al.,2024 (https://arxiv.org/html/2606.12086#bib.bib33))。在复杂任务中,标准 RLHF 通常难以处理稀疏奖励问题,即反馈仅在长对话结束时可用 (Lightman et al.,2024 (https://arxiv.org/html/2606.12086#bib.bib15); Wu et al.,2023 (https://arxiv.org/html/2606.12086#bib.bib34); Ammanabrolu et al.,2021 (https://arxiv.org/html/2606.12086#bib.bib35))。为了解决这个问题,最近的研究聚焦于过程监督和奖励分解。Lee et al. (2025 (https://arxiv.org/html/2606.12086#bib.bib36)) 提出通过奖励
相似文章
通过引导进行嵌入:系统提示贝叶斯优化的动态表示
介绍ReElicit,一个贝叶斯优化框架,利用大型语言模型(LLM)来引导和调整特征空间,在聚合标量反馈下优化系统提示,在十个基准任务上取得了强劲性能。
面向法律探究型对话代理的双层次对话策略学习
介绍了一种用于法律对话中主动信息提取的探究型对话代理(ICA),提出了一个双层次强化学习框架,该框架学习何时以及如何提出探测性问题,并在美国最高法院口头辩论数据上进行评估。
AI智能体的有效上下文工程
Anthropic发布指南,将上下文工程定义为提示工程的演进,侧重于为AI智能体筛选最优上下文token,以在多轮推理过程中保持性能和专注度。
通过对话场景建模和意图-关键词桥接增强目标导向主动对话系统
本文提出了一种方法,通过将用户画像和领域知识共同建模为对话场景,并采用意图-关键词桥接技术来预测未来的对话轮次,从而增强目标导向的主动对话系统。
通过风格引导提示解释风格表示
本文提出了一个通过使用风格引导提示(即自然语言指令,引导大语言模型生成具有特定风格属性的文本)来解读风格表示的框架。该方法在描述和模仿写作风格方面均优于基线大语言模型提示技术。