OSCToM: RL引导的对抗生成用于高阶心智理论
摘要
本文提出OSCToM,一种RL引导的方法,用于生成对抗数据以测试LLM中的嵌套信念冲突,在FANToM等基准上改进了心智理论推理。
arXiv:2605.20423v1 Announce Type: new
摘要:大语言模型(LLMs)在许多语言任务上表现良好,但其心智理论(ToM)推理在复杂社交场景中仍不稳定。现有基准(包括ExploreToM)并不总能测试递归信念和信息不对称性——而这些正是导致这些场景困难的原因。本文提出OSCToM(观察者-自我冲突心智理论),一种对基于LLM的ToM任务中嵌套信念冲突进行建模的方法。关键场景是:观察者对另一个智能体的看法与观察者自身的信念状态发生冲突。这种情形超越了简单的视角转换,需要递归、多层次推理。OSCToM结合了强化学习(RL)、扩展的领域特定语言以及组合代理模型来生成观察者-自我冲突。在我们的实验中,OSCToM-8B在测试系统中取得了最佳整体效果。它在FANToM上改进了已报告的ExploreToM结果,并在Hi-ToM和BigToM上保持了竞争力。在信息不对称的FANToM基准上,OSCToM达到76%的准确率,而ExploreToM报告的准确率为0.2%。此外,数据合成过程的效率提高了6倍,表明针对性的训练数据可以帮助较小模型处理高级认知推理。项目代码可在https://github.com/sharminsrishty/osct获取。
查看缓存全文
缓存时间: 2026/05/22 08:46
# OSCToM:RL引导的高阶心智理论对抗生成 来源:https://arxiv.org/html/2605.20423 Sharmin Sultana Srishty 计算机科学系 BRAC大学 sharmin\.sultana\.srishty@g\.bracu\.ac\.bd &Kazi Mahathir Rahman 计算机科学系 BRAC大学 kazi\.mahathir\.rahman@g\.bracu\.ac\.bd &Malaika Parizat Sakkhi 计算机科学系 BRAC大学 malaika\.parizat\.sakkhi@g\.bracu\.ac\.bd &Samia Shahid Prianna 计算机科学系 BRAC大学 samia\.shahid\.prianna@g\.bracu\.ac\.bd &Shaikhul Islam Sinat 计算机科学系 BRAC大学 shaikhul\.islam\.sinat@g\.bracu\.ac\.bd ###### 摘要 大型语言模型(LLMs)在许多语言任务上表现良好,但其心智理论(ToM)推理能力在复杂社交场景中仍不均衡。现有基准测试(包括ExploreToM)并未总是测试出造成这些场景困难的递归信念和信息不对称性。本文提出OSCToM(观察者-自我冲突心智理论),一种用于在基于LLM的ToM任务中建模嵌套信念冲突的方法。关键场景是:观察者对另一个智能体的看法与观察者自身的信念状态相冲突。这种场景超越了简单的视角采择,需要递归、多层的推理。OSCToM结合了强化学习(RL)、扩展的领域特定语言和组合替代模型来生成观察者-自我冲突。在我们的实验中,OSCToM-8B在测试的系统中取得了最佳总体结果。它在FANToM上改进了ExploreToM报告的结果,并在Hi-ToM和BigToM上保持竞争力。在信息不对称的FANToM基准上,OSCToM达到了76%的准确率,而ExploreToM报告的准确率为0.2%。数据合成流程的效率也提高了6倍,这表明针对性的训练数据可以帮助较小的模型处理高级认知推理。项目代码可在https://github.com/sharminsrishty/osct获取。 关键词心智理论(ToM),大型语言模型(LLM),观察者-自我冲突,嵌套信念,强化学习(RL),对抗基准,社会智能,递归推理。 ## 1 引言 心智理论(ToM)是对其他智能体的信念、意图和知识进行推理的能力。该术语最初在灵长类动物社会智能的研究中被引入[24 (https://arxiv.org/html/2605.20423#bib.bib8)],后来成为人类社会认知研究的核心。ToM支撑着多种形式的社会互动,包括合作、说服和欺骗。在日常推理中,人们不仅追踪事实;他们还追踪他人知道什么、他人错误地相信什么,以及这些信念与现实如何不同。对于大型语言模型(LLMs)来说,这种能力是社会推理的重要组成部分。它也将评估从流畅的文本生成转向模型能否表示和更新心理状态。 参考图注图1:OSCToM系统架构。左侧模块展示了对抗故事生成器(结合RL和替代评估),它构建了OSCT数据集。右侧模块展示了随后的LLM微调流水线,最终得到OSCToM-8B模型。早期的自然语言处理工作主要使用静态的手写短文来测试ToM。一个常见的例子是ToMi[19 (https://arxiv.org/html/2605.20423#bib.bib7)],它评估简单的错误信念追踪。这些任务很有用,但随着模型规模和训练数据的增加,它们现在已不太可靠。模型可能通过依赖熟悉的故事模式或表面线索而获得高分,而不是通过一致的方式追踪信念[18 (https://arxiv.org/html/2605.20423#bib.bib5),26 (https://arxiv.org/html/2605.20423#bib.bib6),6 (https://arxiv.org/html/2605.20423#bib.bib13)]。这造成了一个推理缺口:模型在标准示例上表现良好,但当相同的逻辑通过略微不同的叙事结构呈现时,模型可能失败。 程序化和对抗生成提供了一种减少这些局限性的方法。例如,ExploreToM框架[28 (https://arxiv.org/html/2605.20423#bib.bib1)]使用领域特定语言(DSL)和A*搜索在困难的信息条件下综合生成故事。这是重要的一步,但基于搜索的生成仍有局限性。A*搜索受限于预定义的搜索空间,且不会根据经验调整其策略。它也可能更奖励信息量,而不是信念冲突的具体结构。因此,模型在需要深度信息不对称和多层递归追踪的叙事中仍然可能失败,例如一个智能体推理另一个智能体关于第三个智能体意图的信念的情况。 我们关注一种我们称为**观察者-自我冲突**的推理类型。当观察者在内部持有不同信念的同时,将一种信念归因于另一个智能体时,就会出现这种状态。冲突不仅在于角色与真实世界状态之间,还在于观察者情境模型内部嵌套的视角之间。这类场景在社会复杂推理中很常见,但很难大规模生成和验证。OSCToM通过将这些冲突结构添加到优化的LLM生成和训练流水线中来解决这个问题。 OSCToM不依赖固定的搜索启发式,而是将故事生成视为一个优化问题。一个基于DQN的强化学习生成器学习在一个扩展的DSL中移动,该DSL支持4阶信念追踪和欺骗性心理状态。由于直接的LLM验证在这种生成中代价高昂,我们使用一个**组合替代流水线**。该流水线包含六个专门模块,它们以比完整LLM验证低得多的成本来估计事实和信念难度。这种替代引导的设计使得大规模对抗数据综合变得实用,并在流水线执行中实现了总体**6倍**的效率提升。 得到的模型OSCToM-8B通过两阶段课程进行训练。在我们的实验中,它显示出强大的4阶推理性能,并在多个设置中优于更大的模型。在信息不对称的FANToM基准[36 (https://arxiv.org/html/2605.20423#bib.bib2)]上,OSCToM-8B达到了76%的准确率,而ExploreToM基线报告的准确率为0.2%。 本文的其余部分组织如下:第2节回顾心智理论和对抗基准的相关工作;第3节详细介绍OSCToM框架、扩展的DSL以及我们的RL引导生成策略;第4节介绍我们的实验设置和全局基准上的结果;第5节讨论我们的发现对社会AI未来的影响。 ## 2 相关工作 心智理论(ToM)通常被定义为将心理状态(如信念、意图和知识)归因于自己和他人。它最初在灵长类动物心理学中被形式化[24 (https://arxiv.org/html/2605.20423#bib.bib8)],后来成为人类发展研究中的重要标志[33 (https://arxiv.org/html/2605.20423#bib.bib9),3 (https://arxiv.org/html/2605.20423#bib.bib10)]。在人工智能领域,评估计算系统是否具备这种能力已从哲学探究转向社会智能的经验基准。早期的ToM神经评估侧重于简单的故事理解任务,表明社会智能可以作为大规模语言建模的副产品出现[7 (https://arxiv.org/html/2605.20423#bib.bib12)]。这些初始基准主要使用ToMi数据集[19 (https://arxiv.org/html/2605.20423#bib.bib7)],它将经典的萨莉-安妮错误信念测试参数化为简单的线性文本短文。虽然这些早期评估表明GPT-3等模型的能力在提升,但后来的研究表明这种性能是脆弱的。研究人员发现,模型通常依赖浅层启发式、虚假相关性和叙事模式匹配,而非稳定内部因果信念状态模型[18 (https://arxiv.org/html/2605.20423#bib.bib5)]。特别是,针对性的行为研究发现,对人类读者来说很容易的小文本变化,可能导致最先进模型性能大幅下降[32 (https://arxiv.org/html/2605.20423#bib.bib14)]。这种感知流畅性与实际认知建模之间的差异引发了领域内更广泛的批评[26 (https://arxiv.org/html/2605.20423#bib.bib6),6 (https://arxiv.org/html/2605.20423#bib.bib13)],凸显了一个持续的“推理缺口”,需要转向更复杂、多层次的推理基准,以更有效地测试这些模型。 这些发现促使了更难的基准用于高阶和递归信念推理。诸如Hi-ToM[37 (https://arxiv.org/html/2605.20423#bib.bib3)]和BigToM[12 (https://arxiv.org/html/2605.20423#bib.bib4)]等研究旨在测试二阶和三阶递归信念,并将真正的社会推理与广义的事实回忆错误分开。其他工作,包括ToMChallenges[20 (https://arxiv.org/html/2605.20423#bib.bib11)],也强调了任务措辞、信念顺序和信息访问的微小变化会强烈影响测量的ToM性能。这对OSCToM很重要,因为观察者-自我冲突取决于智能体知道什么、相信什么以及它认为另一个角色相信什么之间的确切关系。与此同时,大规模的行为评估将LLM性能与人类基线直接进行了比较[4 (https://arxiv.org/html/2605.20423#bib.bib15)],而多阶评估则检验了递归深度的极限[30 (https://arxiv.org/html/2605.20423#bib.bib16)]。结果喜忧参半。LLM有时在固定的行为任务上匹配了成年人的表现,但当任务结构改变时,它们会不可预测地失败,这表明弱的一般逻辑基础[29 (https://arxiv.org/html/2605.20423#bib.bib17)]。为了应对被动观察任务固有的局限性,基准测试工作越来越多地转向涉及信息不对称和动态交互场景的设定。FANToM基准[36 (https://arxiv.org/html/2605.20423#bib.bib2)]的引入是这方面的重要一步,它在多方对话场景中测试模型,其中角色对真实信息拥有不平等的访问权限。这一变化表明,即使在静态一阶场景中表现出色的模型,当被迫在动态对话中持续更新和追踪“谁知道什么”时,性能也会急剧下降[9 (https://arxiv.org/html/2605.20423#bib.bib18)]。 在基准设计的同时,研究人员也研究了这些成功与失败是否对应于内部模型表征。最近利用线性探针等技术对隐藏激活进行可解释性研究的工作提供了早期证据,表明模型为自我和他人都形成了明确的信念状态内部表征[38 (https://arxiv.org/html/2605.20423#bib.bib19)]。这产生了一个重要的区别。模型可能在内部编码了信念信息,但在复杂推理或对抗性文本推理中仍可能无法使用该信息。为了寻求超越文本的更广泛评估背景,研究人员还引入了OpenToM[34 (https://arxiv.org/html/2605.20423#bib.bib20)],它强调多模态和全面的基于视频的ToM追踪,进一步表明当信息分布在复杂或新颖的背景中时,模型难以维持心理状态的一致性。此外,像NegotiationToM[8 (https://arxiv.org/html/2605.20423#bib.bib21)]这样的专门基准表明,当模型需要策略性地使用ToM,基于推断的信念采取行动以实现目标,而不是被动回答问题时,它们的认知模型通常会崩溃。综合来看,这些发现表明LLM可能包含一些静态推理组件,但在对抗性或社交复杂环境中进行动态信念追踪仍然困难。 出于这个原因,最近的ToM评估已转向对抗性和程序化数据生成。ExploreToM框架[28 (https://arxiv.org/html/2605.20423#bib.bib1)]是该领域的领先示例,它使用由启发式A*搜索引导的领域特定语言(DSL),以程序化地操作信息访问,综合生成复杂的对抗性故事。通过主动搜索违反模型现有启发式的场景,ExploreToM成功揭示了Llama-3-70B等模型的性能大幅下降。然而,基于启发式的生成具有计算扩展限制和刚性的搜索空间,尤其是在尝试构建超出3阶递归深度的逻辑合理场景时。更重要的是,现有的对抗文献主要关注外部视角采择,而忽略了**观察者-自我冲突**的概念,即智能体对他人信念的递归归因直接与其自身内部事实知识相矛盾的状态。我们的工作通过用策略驱动的强化学习(RL)方法和组合替代评估流水线替换刚性的启发式搜索来解决这一空白。这使我们能够大规模建模和生成观察者-自我冲突,将ToM评估从线性追踪推向类似人类的认知冲突。 一项相关的工作线研究训练数据如何在预训练后塑造推理行为。课程学习[5 (https://arxiv.org/html/2605.20423#bib.bib28)]在这里是相关的,因为高阶ToM任务的难度并不均匀。一个不能稳定解决一阶错误信念案例的模型,不太可能稳定地处理三阶或四阶嵌套信念。这就是为什么最近关于推理基准的工作通常将简单的信念追踪与需要在多个智能体之间进行递归更新的任务分开。对OSCToM而言,这一观察激发了分阶段训练设计:模型首先看到低阶信念冲突,然后转向更难的观察者-自我案例。这种设计遵循了更广泛的理念:当示例按难度排序而不是作为一个单一混合数据集呈现时,推理能力可以提高。如果故事变得不一致,那么错误模型答案可能反映了数据中的混淆,而不是ToM推理的真正失败。这使得验证成为对抗性ToM生成的重要组成部分。 这些观点阐明了OSCToM相对于先前工作的位置。现有基准表明LLM在递归信念追踪、信息不对称和战略性使用心理状态信息方面存在困难。程序化方法表明可以以受控方式生成更难的案例。OSCToM通过生成既是对抗性的、又与特定认知结构(观察者的内部信念与观察者分配给其他智能体的信念之间的冲突)相关联的示例来结合这些方向。这个焦点比一般的社会推理更窄,但它允许该方法针对一个明确且困难的失败模式。 ## 3 方法论 OSCToM有四个主要组成部分。首先,我们扩展了一种领域特定语言,使其能够表达观察者-自我冲突。其次,我们从LLM蒸馏出的难度注释中训练轻量级替代评估器。这些评估器提供叙事难度的低成本估计。第三,一个强化学习代理使用替代奖励来搜索DSL。
相似文章
Agent-ToM: 通过心智理论推理学习监控自主LLM智能体
提出 Agent-ToM,一种基于心智理论推理的学习监控框架,通过推断信念和意图来检测自主LLM智能体中的隐蔽恶意行为,性能优于基线监控器。
OmniToM: 通过显式信念建模对大语言模型的心智理论进行基准测试
OmniToM 引入了一个基准测试,通过要求显式提取和标注信念结构来评估大语言模型的心智理论,揭示了尽管模型在端点问答任务上表现强劲,但在跟踪角色特定信念方面存在瓶颈。
行动中的心智理论:动态人-智能体协作中的指令推理任务
本文引入指令推理任务,用于评估LLM智能体在处理不完整或模糊指令的人-智能体协作中的心智理论能力。作者呈现了Tomcat(一个LLM智能体),在GPT-4o、DeepSeek-R1和Gemma-3-27B上进行测试,展现出与人类参与者相当的推理未言明意图的性能。
检测前沿推理模型中的不当行为
OpenAI研究人员展示了思维链监控可以检测o3-mini等前沿推理模型中的不当行为,但警告说直接优化思维链来防止不良想法会导致模型隐藏意图,而不是消除行为。
NoisyCoconut:通过潜在空间推理实现反事实共识
本文介绍了 NoisyCoconut,这是一种在推理阶段通过向潜在轨迹注入噪声以生成多样化推理路径从而提高大语言模型可靠性的方法。该方法使模型能够在不确定时选择拒答,从而在无需重新训练的情况下显著降低数学推理任务的错误率。