OmniToM: 通过显式信念建模对大语言模型的心智理论进行基准测试

arXiv cs.AI 论文

摘要

OmniToM 引入了一个基准测试,通过要求显式提取和标注信念结构来评估大语言模型的心智理论,揭示了尽管模型在端点问答任务上表现强劲,但在跟踪角色特定信念方面存在瓶颈。

arXiv:2605.26322v1 Announce Type: new 摘要:心智理论(Theory of Mind, ToM)——推断他人知识、意图和情绪的能力——通常通过端点问答来评估大语言模型(LLMs),其中仅根据对社会推理问题的最终答案来判断性能。这种范式掩盖了模型是否真正构建了稳健推理所需的潜在心理状态表征,尤其是在涉及分歧、演变或错误信念的场景中。为了填补这一研究空白,我们引入了 OmniToM,这是一个基准测试,它通过要求对叙事中所有相关角色的信念结构进行显式建模来直接评估这些表征。这些结构由信念命题组成:即关于角色对世界或他人心理状态所持为真的最小陈述,使得知识、意图、情绪和错误信念能够以统一格式进行分析。模型分两个阶段进行评估:阶段1:信念提取(Belief Extraction),从故事中提取与社会动态相关的信念;阶段2:信念标注(Belief Labeling),为每个信念分配一个覆盖递归顺序、真值状态、知识获取、显式性、内容类型、心理来源和上下文的七维模式标签。OmniToM 基于现有 ToMBench 故事语料库中的895个故事构建,并补充了22,343个标注好的信念命题,采用人工校准的 LLM 辅助标注流程。在零样本评估中,OmniToM 在多个模型上揭示了一个角色特定的信念跟踪瓶颈:当前大语言模型难以进行必要的知识获取和表征决策,从而将叙事事实转化为角色的信念和共享心理状态。
查看原文
查看缓存全文

缓存时间: 2026/05/27 09:03

# OmniToM: 通过显式信念建模评估大语言模型的心智理论
**来源:** https://arxiv.org/html/2605.26322  
Adam Bawatneh, Sagar Sapkota, Amrit Singh Bedi, Santu Karmaker, Mubarak Shah  
中佛罗里达大学,佛罗里达州奥兰多,美国  
[email protected]  

###### 摘要  
心智理论(Theory of Mind, ToM),即推断他人知识、意图和情感的能力,通常通过终点问答(endpoint question answering)来评估大语言模型(LLM):仅根据对社交推理查询的最终答案来判断模型表现。这种范式掩盖了模型是否真正构建了鲁棒推理所需的基础心智状态表征,尤其是在涉及分歧、演变或错误信念的场景中。为弥补这一研究空白,我们引入OmniToM,该基准通过要求对叙事中所有相关角色的信念结构进行显式建模,直接评估这些表征。这些结构由信念命题构成:即角色对世界或他人心智状态所认为为真的最小陈述,从而能以统一格式分析知识、意图、情感和错误信念。模型评估分为两个阶段:阶段1:信念提取,从故事中提取与社交动态相关的信念;阶段2:信念标注,为每个信念分配一个七维模式标签,涵盖递归阶次、真值状态、知识获取、显式程度、内容类型、心理来源和语境。OmniToM基于现有ToMBench故事语料库中的895个故事,并扩充了22,343个已标注的信念命题,采用经过人工校准的LLM辅助标注流程构建。在零样本评估中,OmniToM揭示了各种模型均存在一个角色特定的信念追踪瓶颈:当前LLM难以做出将叙事事实转化为角色信念和共享心智状态所需的知识获取与表征决策。

---

## 1 引言  

参见图注  

图1:错误信念故事中评估范式的比较。Alice和Bob在一个有盒子和篮子的房间里;Alice将球放入盒子,Bob离开,然后Alice将球移到篮子。**上图**:终点问答(QA)仅评估对“Bob会去哪里找?”的最终答案;模型可能回答正确(“盒子”),但支撑性的心智状态表征却未被观察到。**下图**:通过信念表征心智状态将同一故事表示为世界事实和随时间变化的角色信念,使隐藏的推理过程可见。正确轨迹保留了隐藏转移后Bob的错误信念:Bob仍然相信球在盒子里。有缺陷的轨迹显示了终点问答可能隐藏的追踪错误:模型在Bob未观察到的事件后错误地将他的信念追踪为球在篮子里。

社交推理需要追踪信息如何在角色间分布,而不仅仅是世界发生了什么。要预测一个人会做什么,模型必须表征每个角色知道什么、推断什么、意图什么或错误地相信什么。这种能力通常被研究为心智理论(ToM),即将信念、意图和情感等心智状态归因于自己和他人的能力 [Premack and Woodruff, 1978 (https://arxiv.org/html/2605.26322#bib.bib13); Beaudoin et al., 2020 (https://arxiv.org/html/2605.26322#bib.bib14)]。因此,对于大语言模型(LLM)评估,关键问题不仅仅是模型能否回答一个社交推理问题,而是它是否恢复了支持鲁棒ToM推理所需的多角色心智状态表征。

现有的LLM ToM基准通常通过终点问答(QA)间接测试这种能力:给定一个故事或对话,根据模型是否产生正确的最终答案进行评分 [Le et al., 2019 (https://arxiv.org/html/2605.26322#bib.bib10); Kim et al., 2023 (https://arxiv.org/html/2605.26322#bib.bib17); Wu et al., 2023 (https://arxiv.org/html/2605.26322#bib.bib18); Xu et al., 2024 (https://arxiv.org/html/2605.26322#bib.bib16); Chen et al., 2024 (https://arxiv.org/html/2605.26322#bib.bib8)]。如图1所示,终点正确性使底层的心智状态表征未被观察。模型可能正确回答一个错误信念问题,同时未能表征使答案有效的角色特定心智状态,包括每个角色认为什么是真的、推断什么、记住什么或归因于他人。因此,近期工作提出担忧,认为终点ToM分数可能反映基准伪影、捷径策略或任务支架,而非鲁棒的心智状态追踪 [Le et al., 2019 (https://arxiv.org/html/2605.26322#bib.bib10); Sclar et al., 2023 (https://arxiv.org/html/2605.26322#bib.bib11); Pi et al., 2024 (https://arxiv.org/html/2605.26322#bib.bib15)]。

终点QA也限制了细粒度分析。ToM并非单一整体能力:它涉及心智状态推理的多个交互方面,包括递归信念归因、事实对齐、信息获取、语用推理、意图、情感和随时间变化的信念 [Beaudoin et al., 2020 (https://arxiv.org/html/2605.26322#bib.bib14); Wimmer and Perner, 1983 (https://arxiv.org/html/2605.26322#bib.bib1); Perner and Wimmer, 1985 (https://arxiv.org/html/2605.26322#bib.bib3); Flavell et al., 1986 (https://arxiv.org/html/2605.26322#bib.bib2); Happé, 1994 (https://arxiv.org/html/2605.26322#bib.bib4); Goodman and Stuhlmüller, 2013 (https://arxiv.org/html/2605.26322#bib.bib6)]。现有基准提供了特定ToM场景的有价值覆盖,包括错误信念 [Le et al., 2019 (https://arxiv.org/html/2605.26322#bib.bib10)]、高阶推理 [Wu et al., 2023 (https://arxiv.org/html/2605.26322#bib.bib18)]、基于对话的信息不对称 [Kim et al., 2023 (https://arxiv.org/html/2605.26322#bib.bib17)]、视角采择 [Xu et al., 2024 (https://arxiv.org/html/2605.26322#bib.bib16)] 以及更广泛的多任务ToM评估 [Chen et al., 2024 (https://arxiv.org/html/2605.26322#bib.bib8)]。然而,当这些能力主要通过终点答案或任务特定输出进行评估时,仍难以分析底层心智状态表征的不同方面如何交互,例如模型是否因为遗漏了相关角色、更新了错误信念、错误识别了谁有权访问信息,或错误标注了心智状态的来源或内容而失败。这留下了一个核心评估空白:现有基准可以测试模型是否选择了正确的终点答案,但并不能直接测试模型是否恢复了使答案具有社会意义的多角色心智状态表征。

因此,我们引入OmniToM,一个旨在通过显式信念结构建模来填补这一研究空白的基准。OmniToM将支撑性的心智状态表征操作化为角色特定的信念命题:关于角色对世界或他人心智状态所认为为真的最小陈述。这种表述提供了一个通用格式,用于分析知识、意图、情感、错误信念和嵌套心智状态,而无需将ToM简化为单一终点答案。OmniToM分两个阶段评估这种表征。在**阶段1:信念提取**中,模型从故事中提取与社交动态相关的信念命题。在**阶段2:信念标注**中,模型在统一的七维模式框架下标注每个信念命题,该框架基于ATOMS(*心智理论空间中的能力*),一个源于文献的ToM能力分类 [Beaudoin et al., 2020 (https://arxiv.org/html/2605.26322#bib.bib14)]。ATOMS指导OmniToM旨在建模的心智状态推理范围。OmniToM通过七个信念级维度操作化这一覆盖:递归信念深度(例如,Bob相信Alice认为X)(阶次);与故事现实的对齐(真值状态);谁可以访问或共享信息(知识获取);陈述与推断内容(表征);信念主题(内容类型);获取来源(心理来源);以及是否适用任何特殊框架条件(语境)。OmniToM基于来自ToMBench(一个先前ToM基准)的895个故事构建,并扩充了22,343个已标注的信念命题。其构建过程在固定并扩展全基准之前,先进行了超过1000人工小时的基准开发标注工作,然后采用经过人工校准的LLM辅助标注流程。在零样本评估中,对多种开源和闭源模型,阶段2的信念标注准确率达到85.95%,而阶段1的提取F1最高为57.69%。更重要的是,OmniToM在两个阶段中都定位了相同的瓶颈:当故事事实必须分配给角色特定信念时,阶段1性能下降;阶段2的错误集中在知识获取和表征上。这表明当前LLM不仅难以解析社交故事,更难追踪每个角色知道哪些信息、信息如何交流或推断,以及如何成为该角色心智状态表征的一部分。

我们的核心贡献有三方面:
- • 我们引入OmniToM,一个包含895个ToMBench衍生故事和22,343个已标注信念命题的基准,通过超过1000人工小时的标注工作开发,用于评估超越终点答案的多角色心智状态表征。
- • 我们引入一个基于ATOMS的信念级模式,用于细粒度ToM分析,将任务级能力覆盖转化为每个命题的七个维度:阶次、真值状态、知识获取、表征、内容类型、心理来源和语境。
- • 我们评估了多种开源和闭源LLM,发现一个角色特定的信息追踪瓶颈:模型难以确定每个角色知道哪些故事事实、共享或推断哪些事实,以及这些事实如何成为信念。

---

## 2 相关工作  

表1:与代表性语言模型ToM基准的比较。我们比较每个基准的评估格式以及它是否明确评估OmniToM的七个模式维度作为独立指标。勾号(✓)表示明确评估;破折号(–)表示该维度缺失或仅为隐式。

#### 终点QA与心智状态表征。  
心智理论(ToM)的LLM基准主要通过终点问答(QA)评估社交推理:模型阅读故事或对话,根据是否返回正确的最终答案进行评分 [Le et al., 2019 (https://arxiv.org/html/2605.26322#bib.bib10); Wu et al., 2023 (https://arxiv.org/html/2605.26322#bib.bib18); Kim et al., 2023 (https://arxiv.org/html/2605.26322#bib.bib17); Xu et al., 2024 (https://arxiv.org/html/2605.26322#bib.bib16); Chen et al., 2024 (https://arxiv.org/html/2605.26322#bib.bib8)]。如图1所示,终点QA可能使支撑性的心智状态表征未被观察:模型可能正确回答,同时未追踪每个角色认为什么是真的、记住什么、推断什么、意图什么、感受什么或归因于他人。近期工作开始使这种中间推理更加显式。SymbolicToM引入了一个多角色信念追踪器,但将其作为改进下游QA的支架而非主要基准目标 [Sclar et al., 2023 (https://arxiv.org/html/2605.26322#bib.bib11)]。Perceptions-to-Beliefs评估了一个更狭窄的前体路径,询问模型能否推断角色感知到什么并将感知转化为信念,使用了添加到ToMi和FANToM的感知标注 [Jung et al., 2024 (https://arxiv.org/html/2605.26322#bib.bib12)]。这表明模型可能识别感知访问,同时仍难以推断随之而来的信念。OmniToM针对更广泛的表征:与故事社交动态相关的全部角色特定信念命题,包括基于感知、记忆、证词、推断、想象和高阶归因的信念。

#### 能力空间与模式引导分析。  
评估心智状态表征需要分析这些表征的哪些方面成功或失败。ATOMS(心智理论空间中的能力)将ToM测量组织为任务级能力类别和子能力,包括信念、知识、意图、欲望、情感、感知和非字面交流 [Beaudoin et al., 2020 (https://arxiv.org/html/2605.26322#bib.bib14)]。这提供了一个有原则的覆盖支架,但并非单个信念命题的直接标签目录。OmniToM将这种能力空间视角改编为基于ATOMS的信念级模式,通过递归深度(阶次)、事实对齐(真值状态)、信息共享(知识获取)、显式程度(表征)、主题(内容类型)、获取来源(心理来源)和框架(语境)来标注每个命题。先前基准实例化了这一空间的重要子集:ToMi专注于错误信念QA,Hi-ToM专注于高阶推理,FANToM专注于信息不对称,OpenToM专注于物理和心理状态,ToMBench专注于多任务ToM QA [Le et al., 2019 (https://arxiv.org/html/2605.26322#bib.bib10); Wu et al., 2023 (https://arxiv.org/html/2605.26322#bib.bib18); Kim et al., 2023 (https://arxiv.org/html/2605.26322#bib.bib17); Xu et al., 2024 (https://arxiv.org/html/2605.26322#bib.bib16); Chen et al., 2024 (https://arxiv.org/html/2605.26322#bib.bib8)]。表1通过评估格式以及是否明确评分OmniToM的七个维度来比较这些基准,突出了OmniToM从终点评估转向对支撑这些答案的信念表征进行结构化评估的转变。

#### LLM辅助基准构建与评估。  
构建密集的信念结构基准成本高昂:每个故事可能需要许多角色特定命题,且每个命题必须沿多个模式维度进行标注。近期工作越来越多地使用LLM支持可扩展的数据标注和综合,当完全手动标注不可行时 [Tan et al., 2024 (https://arxiv.org/html/2605.26322#bib.bib29)]。OmniToM以这种精神使用LLM,但通过任务条件提示和人工校准来约束其作用。特别地,我们使用TELeR(一个用于基准测试复杂任务的提示分类法)来指定任务条件的提取、标注和评估提示 [Karmaker Santu and Feng, 2023 (https://arxiv.org/html/2605.26322#bib.bib9)],然后在人工标注的子集上校准生成的流程,再扩展到全基准。由于OmniToM也使用基于LLM的语义评估进行开放式信念提取,它遵循了先前LLM作为法官的工作 [Zheng et al., 2023 (https://arxiv.org/html/2605.26322#bib.bib30)],同时采纳了JudgeBench所强调的人工检查重点 [Tan et al., 2025 (https://arxiv.org/html/2605.26322#bib.bib31)]。因此,LLM支持基准构建和评估,但最终流程是任务条件的、人工校准的,并在使用前通过一致性检查进行选择。

---

## 3 基准制定  

#### 形式化任务定义。  
OmniToM将基准评估形式化为*显式信念结构建模*:给定一个故事,模型提取一个由叙述的世界事实和所有相关角色持有的信念命题组成的结构化表征,然后标注每个提取的命题,

相似文章

大语言模型能否用 TLA+ 建模实际系统?

Hacker News Top

Specula 团队的研究人员创建了 SysMoBench 基准测试,用于评估大语言模型能否准确建模实际计算系统的 TLA+ 规范,还是仅仅照本宣科地背诵教材内容。该基准测试涵盖四个阶段共 11 个系统,揭示了当前大语言模型在准确建模系统实现与参考论文方面的系统性差距。