评估大语言模型的发展性认知能力
摘要
本文引入了发展性句子补全测试(DSCT),用于评估大语言模型识别文本中发展性认知阶段的能力。研究发现,模型在合成人设上的表现优于真实人类回答。
arXiv:2605.08549v1 公告类型:新论文
摘要:对话式人工智能正日益根据用户的偏好、历史、目标和知识进行个性化定制,但在用户如何解读并采纳模型输出来构建和理解其现实这一方面,个性化程度相对较低。我们借鉴罗伯特·凯根(Robert Kegan)的建设性发展理论,作为观察这一维度的补充视角。凯根传统中现有的评估发展性阶段的方法,要么依赖无法扩展的专家访谈,要么依赖专有、冗长或侵入性的句子补全工具。为了使这一视角适用于大语言模型(LLM)的评估,我们引入了发展性句子补全测试(DSCT),这是一个包含20个项目的工具,旨在通过自我管理的文本激发出发展性信号。在整个过程中,我们将由此产生的标签视为对诱发回答中类似阶段结构的表征,而非经过验证的个体层面的发展性阶段。随后,我们探讨了LLM在三种诱发回答机制下能够恢复多少此类信号:模拟人设、真实人类受访者以及默认模型生成的答案。
在模拟人设方面,顶尖的前沿模型能够以高准确率恢复模拟器设定的标签。在真实人类的DSCT回答中,人类与LLM的同意度尚可,其中邻近阶段的同意度远高于精确同意度。最后,当LLM在没有其人设条件限制的情况下回答DSCT提示时,其回答在不同模型家族间表现出稳定的类阶段差异,其中规模更大、更新颖的模型倾向于生成评级更高的文本。这些结果表明,阶段条件信号在合成回答中比在人类撰写的DSCT文本中更为清晰,而对于具备阶段意识的对话式人工智能而言,核心约束不仅仅是分类器的准确率,更在于从诱发文本中获取发展性信号的可用性。
查看缓存全文
缓存时间: 2026/05/12 07:17
# 评估大型语言模型的发展性认知能力 来源: https://arxiv.org/html/2605.08549 Xiao Xiao 德文奇研究中心 (De Vinci Research Center), 法国 麻省理工学院媒体实验室 (MIT Media Lab), 美国 &Hayoun Noh 英国牛津大学 &Mar Gonzalez-Franco 美国谷歌 [email protected] ###### 摘要 对话式人工智能正日益围绕用户的偏好、历史、目标和知识进行个性化定制,但在用户如何解释和采纳模型输出以构建和理解其现实这一方面,个性化程度尚显不足。我们借鉴罗伯特·凯根 (Robert Kegan) 的建构发展理论作为这一维度的补充视角。凯根传统中评估发展阶段的现有方法要么依赖于无法大规模应用的专家访谈,要么依赖于专有、冗长或具有侵入性的句子补全工具。为了使这一视角在大型语言模型 (LLM) 评估中变得可行,我们引入了**发展性句子补全测试 (Developmental Sentence Completion Test, DSCT)**,这是一种包含 20 个项目的自填式工具,旨在从自填文本中引出发展性信号。在整个过程中,我们将由此产生的标签视为对引出反应中类阶段性结构的表征,而非经过验证的个人层面发展阶段。随后,我们探究在三种引出反应体制下——模拟人设、真实人类受访者以及默认模型生成答案——LLM 能在多大程度上恢复这些信号。在模拟人设中,顶级前沿模型以高准确率恢复了模拟器预期的标签。在真实人类 DSCT 反应中,人类与 LLM 的一致性尚可,且在“邻近距离”内的一致性远高于精确一致性。最后,当 LLM 在无角色条件约束下回答 DSCT 提示时,其反应在不同模型家族间表现出稳定的类阶段性差异,较大且较新的模型倾向于生成评分更高的文本。这些结果表明,合成反应中的阶段条件信号比人类书写的 DSCT 文本更清晰,而对于阶段感知型对话式 AI 来说,核心限制因素不仅仅是分类器的准确率,而是从引出文本中获取发展性信号的可能性。 ## 1 引言 对话式人工智能系统越来越多地用于支持学习、推理和决策,包括在教育、反思和咨询导向的环境中 (Wang 等, 2026; Li 等, 2025; Chiu 等, 2024)。因此,个性化已成为一个活跃的研究方向,通常围绕用户的偏好、历史、背景、目标或知识状态展开 (Chen 等, 2024)。这种方法主要适应用户想要什么、知道什么或试图完成什么,而较少关注他们如何解释和采纳模型输出。然而,发展心理学表明,人们在理解经验和知识的方式上也存在差异 (Piaget 和 Cook, 1952; Kegan, 1994)。凯根的建构发展理论为理解这些差异提供了一个有用的视角,该理论将发展描述为“主体-客体”转换:一个人受其支配且尚无法抽身反思的事物,与其能够作为反思对象并进行评估的事物之间的变化 (Kegan, 1994)。在本工作中,我们使用凯根的框架来探究多大程度上可以从引出的文本中恢复意义构建 (meaning-making) 的差异。这对于对话式 AI 至关重要,因为即使用户声明的目标相似,相同的模型输出对于表现出不同意义构建结构的用户来说,其作用也可能不同。忽视这种差异可能导致常见的失败模式,如同质化输出 (Jiang 等, 2025) 或奉承性地强化用户信念 (Chandra 等, 2025)。需要注意的是,我们的目标不是直接测量用户的发展阶段,而是测试引出的文本是否包含可恢复的关于意义构建结构的线索。 凯根传统中评估发展结构的标准方法并不适合 LLM 基准测试。最著名的方法是主体-客体访谈 (Subject-Object Interview, SOI) 及相关的发展访谈,它提供了对意义构建结构的丰富访问,但需要长时间的对话和专家解释性编码 (Laske, 2023; Kegan, 1994)。虽然凯根的规范评估是基于访谈的,但句子补全测试 (Sentence-Completion Test, SCT) 已成为评估意义构建结构的另一种方式 (Loevinger 等, 1998; Cook-Greuter, 1999)。在此,受访者完成简短的开放式题干,生成的文本根据其表达的意义构建结构进行评估。这种格式对于 LLM 评估特别相关。由于 LLM 既是文本的生产者也是读者,它们可以生成句子补全反应,并对来自人类或其他模型的此类反应进行分类。然而,像 Loevinger 和 Cook-Greuter 这样的句子补全工具并非直接设计用于评估凯根式发展结构,且它们往往是专有的、冗长的,或包含带有性别色彩和个人侵入性的提示 (Loevinger 等, 1998; Cook-Greuter, 1999)。 因此,我们引入了发展性句子补全测试 (DSCT),这是一个包含 20 个项目的自填式工具,旨在引出足够丰富的文本,以便受过训练的人类评分员或 LLM 为反应集分配临时的凯根式标签,同时去除了旧工具中专有、性别化和侵入性的项目。我们的核心问题是:可以从 DSCT 风格文本中恢复多少发展性信号,这取决于文本是由谁或什么产生的?为了回答这个问题,我们比较了三种体制:模拟人设、真实人类受访者以及默认模型生成答案。首先,我们研究由专家描述的发展谱系生成的合成 DSCT 反应,询问阶段条件信号是否可由 LLM 分类器恢复,并得到受过训练的人类评分员的证实。其次,我们将 DSCT 应用于人类受访者,并测量人类评分员与 LLM 分类器在由此产生的反应集上的一致性。第三,我们提示 LLM 在无角色条件约束下回答 DSCT 项目,并分析它们产生的文本的发展结构。这三种体制使我们能够在共同的引出格式下比较人类书写、模型模拟和模型生成的反应。 我们的贡献有三方面。首先,我们引入了 DSCT,这是一种包含 20 个项目的句子补全工具,用于对人类和 LLM 在引出文本中的类阶段性结构进行匹配评估。其次,我们将十二种 LLM 在模拟和人类 DSCT 反应的凯根式标签方面与受过训练的人类评分员进行了基准测试,表明顶级前沿模型在受控合成条件下以高准确率恢复了模拟器预期的标签,而在人类书写的 DSCT 反应中,发展性信号虽然不那么清晰,但仍足以在更广泛的阶段区域上实现实质性的一致性。第三,我们分析了由 LLM 生成的默认 DSCT 反应,表明较大且较新的模型倾向于产生评分为更高发展阶段的文本。 ## 2 设计 DSCT 发展性句子补全测试 (DSCT) 是一种包含 20 个项目的自填式工具,旨在引出足够的文本样本,以便 LLM 或受过训练的人类评分员对受访者可能的发展性认知凯根阶段进行临时评估。我们在此描述其设计,以便在实验之前明确其范围和局限性。 **范围和局限性。** 凯根 (1994) 的主体-客体访谈 (SOI) 仍然是阶段评估的黄金标准,但其 60-90 分钟的半结构化格式和对认证编码员的要求与大规模计算评估不兼容。句子补全测试——Loevinger SCT (Loevinger 等, 1998) 和 Cook-Greuter 的 MAP / SCTi-MAP (Cook-Greuter, 1999) 是规范工具——提供了一种轻量级的替代方案:受访者用自己的话完成简短的题干,并利用反应的结构特征来推断意义构建的复杂性。DSCT 继承了 SCT/MAP 格式,旨在支持这样一个经验问题:**从简短的自填文本样本中能恢复多少发展性信号?** 然而,DSCT 不应被视为 SOI 或 SCTi-MAP 的完全替代品,它不是诊断工具,也未针对个人的高风险决策进行验证。DSCT 也不是对智力、教育或言语能力的衡量,尽管反应不可避免地会与这些因素共同变化。正如我们所使用的术语,“阶段”是**反应**如何结构化的属性,而不是我们归因于受访者的稳定特征。 **项目构建。** 我们从 SOI 探测的情感领域开始,SOI 使用涵盖反复出现的意义构建情境的提示卡:*愤怒/生气*、*纠结/冲突*、*悲伤*、*成功*、*坚定的立场/信念*、*感动/触动*、*失去/告别*、*改变*、*重要* 和 *焦虑/紧张*。对于每个领域,我们借助 LLM 生成候选情境,然后手工整理:两位作者独立选择他们认为结构最丰富且文化负载最少的情境,仅保留两人均认可的项目。这为每个领域产生了两个情境,总共 20 个题干。每个领域的两个情境以不同的声音书写:一个是第一人称(第 1 部分,*自我评估*,项目 1-10),另一个是关于一般他人的第三人称(第 2 部分,*抽象他人评估*,项目 11-20)。这种双声音设计适应了那些默认给出社会期望的第一人称反应的受访者,但在推理同一情境中的他人时会展现出更多的结构复杂性;这两个部分通过不同的框架探测相同的构念,而不是测量不同的维度。 **与 SCT 的比较。** 与包含 36 个项目的 Loevinger SCT 相比,DSCT 缩短了 44%,并移除了针对性别角色、性取向和家庭关系的项目(例如,“男人的工作……”、“通常她/他感到性……”、“妻子/丈夫应该……”),我们认为这些项目在自填在线环境中具有侵入性,且与意义构建中的结构复杂性无关。我们在实验前在非正式场合对自己进行了试点测试。两份问卷的完整项目列表见附录 A.1。值得注意的是,尽管 DSCT 在文化规范方面相比 SCT 有所改进,但它仍未完全脱离文化:在当前版本中,题干为英文,且其底层框架反映了西方成人发展学术成果。 ### 2.1 实验 1:对模拟人设的控制验证 我们从受控验证环境开始。由于不存在大规模标记阶段的 DSCT 反应语料库,我们使用了基于先前文献中 23 个专家描述的发展谱系 (Bartone 等, 2002; Berger, 2024; Laske, 2023; Baxter Magolda 和 King, 2007) 锚定的模拟人设(用于模拟人设的 23 个谱系可在附录 A.4.1 中找到)。本实验的目的不是建立现实世界的阶段推断,而是测试嵌入在合成 DSCT 反应中的阶段条件发展性信号是否可由 LLM 分类器恢复,以及在多大程度上那些模拟器预期的标签得到受过训练的人类评分员的证实。为了进一步验证,附录 A.2.3 报告了在一部分分类器上运行的 DSCT 与更长的 36 项 Loevinger SCT 之间的额外比较。 **模拟人设。** 23 个谱系中的每一个都指定了一个目标阶段(固体阶段 2-5,以及过渡阶段 2/3、3/4 和 4/5),以及来自文献的相应意义构建结构的简要描述。我们使用 Gemini 3.1 Pro 生成基于每个谱系的 DSCT 反应,提示其采用人设的世界观和语气,同时避免过于直接地揭示目标阶段的明显词汇线索(完整的模拟器提示和系统指令见附录 A.4.2)。为了考虑随机性,我们为每个谱系生成了六个独立的反应,产生了 138 个模拟案例。这是 AI 基准测试中的最佳实践,以消除单次运行的排名反转 (Alvarado Gonzalez 等, 2025)——3 次迭代去除了超过 83% 的随机效应。请注意,即使进行多次模拟,这些案例仍然只在文本中实例化模拟器预期的阶段结构;它们不构成人类地面真值。因此,下面的人类评分步骤作为检查生成的反应是否实际实现了预期结构的手段。 **对分层子集的人类评分。** 为了评估模拟器预期的目标是否以受过训练的读者会认可的形式实现,我们抽样了 46 个模拟案例,对应于 23 个谱系中每个谱系的两组独立生成的反应集,并由两位对凯根的建构发展理论有基本了解、并辅以简短评分指南支持的评分员独立评估。评分员仅看到带有随机 ID 的 DSCT 反应,对目标阶段、谱系描述以及彼此的评分保持盲态。评分员间信度很高(二次加权 $\kappa=0.927$),评分员共识与模拟器预期阶段之间的一致性为 65.2% 精确一致,100% 在 $\pm 0.5$ 阶段内一致,这表明即使评分员偏离预期标签,误差也不超过半个阶段。我们使用此比较不是作为人类地面真值的验证,而是作为检查生成的反应是否以人类评分员可识别的形式表现出预期的发展结构。它还允许我们将 LLM 的判断不仅与模拟器预期的标签进行比较,还与相同反应的人类评分进行比较。完整协议细节报告在附录 A.3 中。 **十二种模型的 LLM 分类。** 对于每个模拟案例,我们要求十二种涵盖主要前沿模型家族(Claude Opus 4.6, Claude 4.5 Haiku, GPT 5.5, GPT 5 Mini, Grok 4.2, DeepSeek V4, DeepSeek R1, Gemini 3.1 Pro, Gemini 3.1 Flash, Mistral 3 Large, Qwen 3.6 Plus, Kimi K2.6)的 LLM 将反应分类为阶段 1-5 之一或过渡阶段。分类器提示指令模型扮演熟悉凯根理论的发展心理学家,并在每个阶段分配旁提供简要理由(完整提示见附录 A.4.2)。由于 Gemini 3.1 Pro 既是模拟器又是分类器之一,其结果出于完整性考虑被报告,但应特别谨慎解读。 **结果。** 参见说明 **图 1: 实验 1**
相似文章
大型语言模型能否模仿人类语音进行临床评估?基于LLM的数据增强方法用于认知评分预测
本文提出了一种基于大型语言模型的数据增强框架,利用GPT-5从书面锚点生成合成口语独白,用于从语音中预测认知评分。一种相似性引导的选择策略持续降低了预测误差,特别是对于少数低分参与者。
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
探索大语言模型在中文抽象语言掌握中的能力边界
本文介绍了Mouse基准测试,用于评估大语言模型在六个自然语言处理领域的中文抽象语言任务表现。研究表明,尽管当前最先进的模型在上下文理解任务中表现良好,但在这种亚文化网络语言上仍存在重大局限。
评估大型语言模型的创造力:测试、局限与新前沿
本文系统评估了针对大型语言模型的人类创造力测试,发现它们无法预测科学构思能力。文章介绍了DRAT,一种结合了聚合思维与发散思维的新测试,能够可靠地预测语言模型的科学构思能力。
学习如何让大语言模型进行推理
OpenAI 发布了一篇文章,通过密码破译示例探索大语言模型的推理技术,展示了语言模型的逐步问题求解和模式识别能力。