MindZero:零标注下的在线心智推理学习
摘要
MindZero 提出了一种自监督强化学习框架,用于训练多模态大语言模型,使其能够高效且鲁棒地进行在线心智推理,而无需心智状态标注,在准确性和效率上均优于基于模型的方法。
arXiv:2606.00240v1 公告类型:新
摘要:要实现有效的现实世界辅助,AI 智能体需要具备强大的心智理论(ToM)能力:从人类行为推断其心智状态。尽管近期取得了进展,但仍存在若干关键挑战,包括:(1) 在线推理中对多个假设进行鲁棒的不确定性更新;(2) 适用于实时辅助的高效推理;(3) 现实领域中缺乏真实心智状态标注。我们通过引入 MindZero 来应对这些挑战,这是一种自监督强化学习框架,用于训练多模态大语言模型(MLLM),以实现高效且鲁棒的在线心智推理。在训练期间,模型根据生成心智状态假设的奖励进行优化,这些假设能最大化由规划器估计的观察动作的似然性,类似于基于模型的 ToM 推理。因此,该方法无需显式的心智状态标注。训练完成后,MindZero 将基于模型的推理内化为快速的单次推理。我们在网格世界和家庭领域中的挑战性心智推理和 AI 辅助任务上,将 MindZero 与基线方法进行了评估。我们发现,仅靠 LLM 是不够的;基于模型的方法提高了准确性,但速度慢、成本高,且受限于骨干 MLLM 的能力。相比之下,MindZero 增强了 MLLM 的内在 ToM 能力,并在准确性和效率上均显著优于基于模型的方法,表明心智推理可以作为一种自监督技能有效习得。
查看缓存全文
缓存时间: 2026/06/02 15:45
# MindZero:零标注下在线心智推理的自监督学习 来源:https://arxiv.org/html/2606.00240 ###### 摘要 有效的现实世界辅助要求AI智能体具备强大的心智理论(Theory of Mind, ToM)——能从行为推断人类心理状态。尽管近期取得了进展,但仍存在若干关键挑战,包括(1)在线推理中需要对多个假设进行稳健的不确定性更新;(2)适用于实时辅助的高效推理;(3)现实世界领域中缺乏真实心理状态标注。我们通过引入MindZero来应对这些挑战,这是一个自监督强化学习框架,训练多模态大语言模型(MLLMs)实现高效且稳健的在线心智推理。在训练过程中,模型因生成的心理状态假设能最大化由规划器估计的观察动作的似然而获得奖励,这类似于基于模型的ToM推理。该方法因此消除了对显式心理状态标注的需求。训练后,MindZero将基于模型的推理内化为快速的单次前向推理。我们在网格世界和家庭领域的挑战性心智推理和AI辅助任务上,将MindZero与基线方法进行了比较。我们发现仅靠LLM是不够的;基于模型的方法提高了准确性,但速度慢、成本高,且受限于骨干MLLM的能力。相比之下,MindZero增强了MLLM内在的ToM能力,在准确性和效率方面均显著优于基于模型的方法,表明心智推理可以作为一种自监督技能有效学习。 心智理论,强化学习,多模态大语言模型,心智推理,AI辅助 ## 1 引言 参见图1 图1:在线心智推理用于主动辅助的一个例子,其中辅助智能体同时推断主智能体的目标并帮助其更快达成目标。如本例所示,辅助者观察主智能体随时间推移的动作,MindZero持续更新多个目标假设上的概率分布。基于每一步维护的多个可能假设,辅助者决定是否行动,并通过取相关餐具放在桌上进行主动辅助。随着新动作被观察到,不同心理状态假设的概率随时间更新。特别地,从步骤2到步骤3的转变显示,主智能体拿起第二个盘子增加了步骤2中第二个假设的可能性。 为了在现实世界中主动辅助人类用户,AI智能体必须理解用户的思想并预测他们的需求。这需要强大的心智理论(ToM),即从行为推断用户心理状态(如欲望、信念和目标)的能力。近期大语言模型(LLMs)和多模态LLM的进展激发了对机器心智理论日益增长的兴趣(Wimmer和Perner, 1983 (https://arxiv.org/html/2606.00240#bib.bib63); Ullman, 2023 (https://arxiv.org/html/2606.00240#bib.bib51); Wilf等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib54); Sclar等人, 2023 (https://arxiv.org/html/2606.00240#bib.bib42); Jin等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib36))。然而,现有工作大多聚焦于基于问答的ToM评估与发展,这不足以应对现实世界的辅助需求。在实践中,辅助智能体必须持续更新关于用户心理状态的推断,并跟踪多个竞争假设下的不确定性。这种在线心理状态推理可以指导智能体的规划,从而实现主动辅助、适应不断变化的情境以及与用户更有效的协作。例如,在图1 (https://arxiv.org/html/2606.00240#S1.F1)中,当智能体观察到人类在家庭环境中的动作时,它实时维护并更新多个可能目标假设上的概率分布,并利用这些假设决定何时以及如何主动帮助(例如,在用户提出要求之前取来餐具)。 然而,训练模型进行在线心智推理仍然具有挑战性。人类心理状态是潜在且通常模糊的,在顺序任务中也会随时间动态变化。对于许多现实世界的应用,如家庭或网页辅助,收集带有可靠真实心理状态标注的大规模训练数据极其困难且成本高昂。因此,先前基于学习的ToM方法仅限于受控环境(Rabinowitz等人, 2018 (https://arxiv.org/html/2606.00240#bib.bib41); Rhinehart等人, 2019 (https://arxiv.org/html/2606.00240#bib.bib67); Bortoletto等人, 2024a (https://arxiv.org/html/2606.00240#bib.bib4), b (https://arxiv.org/html/2606.00240#bib.bib66)),缺乏开放性和可扩展性。 为了规避这些数据和标注挑战,近期研究探索了利用LLM的通用性和强大推理能力进行ToM的推理时方法,无需模型训练。特别是,当与基于模型的ToM方法(如贝叶斯逆规划BIP)结合时,推理时扩展在具有挑战性的ToM推理任务中展现了强大性能(Jin等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib36); Shi等人, 2025 (https://arxiv.org/html/2606.00240#bib.bib37); Zhang等人, 2025 (https://arxiv.org/html/2606.00240#bib.bib35); Ying等人, 2023 (https://arxiv.org/html/2606.00240#bib.bib65); Kim等人, 2025 (https://arxiv.org/html/2606.00240#bib.bib38))。这些方法利用LLM提出和评估心理状态假设,实现了稳健且可扩展的心智推理。然而,在现实世界辅助任务所需的在线心智推理中,它们的计算成本过高。这些挑战呼唤一种新的ToM方法,该方法能保留基于模型推理的深思熟虑结构,同时更好地利用LLM的效率和容量。 为了解决这些局限性,我们引入了 **MindZero**,一种新颖的心智理论推理框架,它训练多模态语言模型在没有心理状态标注的情况下执行稳健高效的在线心智推理。在训练过程中,模型显式生成关于心理状态(如信念和目标)的假设,当这些假设为人们实际采取的动作分配高似然时,模型获得奖励。我们称之为自监督强化学习(Self-Supervised Reinforcement Learning, SSRL)。与常见的基于RL的语言模型训练不同,我们SSRL方法中的奖励完全来自自监督信号。它鼓励模型产生带有稳健不确定性估计的显式心理状态假设。该方法消除了对真实心理状态标签的需求,允许模型直接从行为中学习,并内化解释情境中动作的ToM推理模式。训练后的MindZero模型在单次前向传递中推断心理状态,同时基于一个保持稳健性和可解释性的模型目标。 在我们的实验中,我们将MindZero与网格世界(Jha等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib18))和家庭环境(Puig等人, 2023 (https://arxiv.org/html/2606.00240#bib.bib15))中的问答和主动辅助任务上的最先进ToM方法进行了比较。用我们的MindZero方法训练的小型多模态语言模型在所有任务中显著优于基线,匹配了基于模型方法的稳健性,同时大幅降低了计算成本。我们还在一个IRB批准的人类研究中进一步验证了MindZero,该研究使用小型开放权重骨干为用户提供有效的实时辅助。这些结果表明,心智推理可以作为一种自监督技能来学习,缩小了稳健但缓慢的基于模型推理与快速但容易出错的小型多模态语言模型推理之间的差距。 总之,我们的主要贡献包括:(1)一种自监督RL方法 **MindZero**,它训练多模态语言模型在没有心理状态标注的情况下进行稳健高效的在线心智推理;(2)在一套具有挑战性的在线心智推理和主动AI辅助基准上,对MindZero及近期ToM方法进行了系统评估。 ## 2 相关工作 #### 心智理论方法。 现有的ToM推理方法主要分为三类。(1)基于提示(Prompting-based)方法(Jung等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib43); Huang等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib55); Yu等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib57); Zhou等人, 2025a (https://arxiv.org/html/2606.00240#bib.bib56); Hou等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib44); Sclar等人, 2023 (https://arxiv.org/html/2606.00240#bib.bib42))在基础LLM上有所改进,但在长上下文理解、复杂行为和递归推理中仍表现出系统性错误。(2)基于模型(Model-based)方法,特别是贝叶斯逆规划(BIP)(Baker等人, 2009 (https://arxiv.org/html/2606.00240#bib.bib45); Ullman等人, 2009 (https://arxiv.org/html/2606.00240#bib.bib46)),显式地建模智能体的心理状态及其对行为的影响。近期工作将BIP与LLM结合(Jin等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib36); Shi等人, 2025 (https://arxiv.org/html/2606.00240#bib.bib37); Zhang等人, 2025 (https://arxiv.org/html/2606.00240#bib.bib35)),将结构化推理与灵活的语言理解相结合。然而,这些方法通常在测试时需要搜索大量假设空间,计算成本很高。(3)基于学习(Learning-based)方法训练神经网络进行心理状态推断(Rabinowitz等人, 2018 (https://arxiv.org/html/2606.00240#bib.bib41); Liang等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib17); Sclar等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib39); Lu等人, 2025 (https://arxiv.org/html/2606.00240#bib.bib68)),但它们依赖于昂贵且不可靠的真实标注,限制了可扩展性和适用性。为应对这些局限,MindZero直接从人类行为数据中学习心智推理。我们的方法改进了基于提示的方法,避免了基于模型推理的计算开销,并消除了先前基于学习方法所需的显式心理状态标注。 #### ToM引导的辅助 近期关于ToM的工作主要集中在问答任务上(Le等人, 2019 (https://arxiv.org/html/2606.00240#bib.bib58); Gandhi等人, 2023 (https://arxiv.org/html/2606.00240#bib.bib59); Kim等人, 2023 (https://arxiv.org/html/2606.00240#bib.bib60); Wu等人, 2023 (https://arxiv.org/html/2606.00240#bib.bib61); Xu等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib62); Jin等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib36); Shi等人, 2025 (https://arxiv.org/html/2606.00240#bib.bib37); Bortoletto等人, 2025a (https://arxiv.org/html/2606.00240#bib.bib72); Fan等人, 2025 (https://arxiv.org/html/2606.00240#bib.bib53)),其中ToM模型根据故事和/或视频回答关于心理状态的问题。相比之下,ToM引导的辅助更具挑战性:模型必须持续推断和更新心理状态,同时考虑长时间跨度内的不确定性以支持有效辅助。先前的工作已经探索了心智理论引导的辅助(Puig等人, 2023 (https://arxiv.org/html/2606.00240#bib.bib15); Ying等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib2); Zhi-Xuan等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib20); Zhou等人, 2025b (https://arxiv.org/html/2606.00240#bib.bib16); Jin等人, 2025 (https://arxiv.org/html/2606.00240#bib.bib73), 2026 (https://arxiv.org/html/2606.00240#bib.bib74)),其中智能体基于对用户心智的理解(涵盖游戏、家庭环境、编码和现实世界LLM对话等领域)来帮助人类。其他工作研究了通过干预和协调支持具有共享目标(Seo等人, 2023 (https://arxiv.org/html/2606.00240#bib.bib6); Zhang等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib7))或部分分歧目标(Bortoletto等人, 2025b (https://arxiv.org/html/2606.00240#bib.bib8))的团队的助手。进一步的研究线关注具有丰富社会动态的情境化自然语言协作(Liu等人, 2012 (https://arxiv.org/html/2606.00240#bib.bib9); Chai等人, 2014 (https://arxiv.org/html/2606.00240#bib.bib10); Suhr等人, 2019 (https://arxiv.org/html/2606.00240#bib.bib11); Narayan-Chen等人, 2019 (https://arxiv.org/html/2606.00240#bib.bib12); Jayannavar等人, 2020 (https://arxiv.org/html/2606.00240#bib.bib13); Bara等人, 2021 (https://arxiv.org/html/2606.00240#bib.bib71); Bortoletto等人, 2025a (https://arxiv.org/html/2606.00240#bib.bib72))。尽管已有在线心智推理在ToM引导辅助中被证明有效的工作(例如,Puig等人, 2023 (https://arxiv.org/html/2606.00240#bib.bib15); Wang等人, 2021 (https://arxiv.org/html/2606.00240#bib.bib21); Shvo等人, 2022 (https://arxiv.org/html/2606.00240#bib.bib22); Zhi-Xuan等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib20); Ying等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib2); Cross等人, 2024 (https://arxiv.org/html/2606.00240#bib.bib1); Ma等人, 2025 (https://arxiv.org/html/2606.00240#bib.bib3)),但它们对人类行为有较强的假设,和/或在复杂任务中需要较高的计算成本。MindZero直接针对这一差距,通过训练一个小型多模态语言模型来高效、稳健地执行在线心智推理,从而以可扩展的方式支持下游辅助任务。 参见图 (a) 自监督强化学习。 参见图 (b) 奖励计算。 图 2:(a) 我们的自监督强化学习(SSRL)框架概述。给定直到时间步t的状态s_{1:t}和动作a_{1:t},模型输出N个心理状态假设m_t^{1:N}及其概率q_t^{1:N}。与标准的基于RL的语言模型训练不同,SSRL的奖励完全来自基于观测和模型输出的自监督信号,用于指导GRPO更新。(b) SSRL中的奖励计算。给定模型输出,一个动作似然评估器(LLM或基于模型的规划器)估计在每个心理状态假设下观察到动作的似然,而心智先验由LLM估计为提出假设的似然或均匀设置。奖励计算为观测动作和心理状态假设的概率加权对数似然减去熵正则化项。 ## 3 问题形式化 我们将在线心理状态推断的问题形式化(第3.1节 (https://arxiv.org/html/2606.00240#S3.SS1)),并描述如何利用推断出的心理状态实现主动辅助(第3.2节 (https://arxiv.org/html/2606.00240#S3.SS2))。我们的公式提供了一个统一的概率框架,用于从顺序观测中推断用户潜在信念和目标,并将这种不确定性感知的推理转化为动态环境中有效的辅助决策。 ### 3.1 在线心智推理 给定到时间步t为止观测到的用户行为序列,包括状态s_{1:t}和动作a_{1:t},一个ToM模型推断用户的最新心理状态m_t,其中可能包括不同的心理变量,如信念b_t和目标g_t。受贝叶斯逆规划的启发,...相似文章
RemoteZero:实现零人工标注的地理空间推理
RemoteZero 是一个框架,通过利用多模态大语言模型(MLLMs)的语义验证能力,消除了地理空间推理中对人工标注框监督的需求,从而实现了从未经标注的遥感数据中进行自我演进的定位能力。
TRN-R1-Zero:仅通过强化学习实现富文本网络推理
TRN-R1-Zero 提出一种后训练框架,让大模型在无需监督微调或思维链数据的情况下,仅凭强化学习即可对富文本网络进行零样本推理。
G-Zero:从零数据开始的无界生成自博弈方法
本文介绍了 G-Zero,这是一个无需验证器的框架,通过基于内在奖励和提示引导的协同进化训练,实现大型语言模型的自主自我改进。旨在通过从内部分布动态中推导监督信号,克服代理 LLM 评判者在无界任务中的局限性。
Self-Distillation Zero:自我修订将二元奖励转化为密集监督
Self-Distillation Zero (SD-Zero) 是一种新颖的训练方法,通过双角色训练将稀疏的二元奖励转化为密集的token级监督,其中模型同时充当生成器和修订者,在数学和代码推理基准上实现了超过10%的性能提升,且样本效率高于强化学习方法。
乱码也有效:提示空间扰动拓宽推理探索
本文介绍了 LoPE,这是一种利用提示空间扰动来解决可验证奖励强化学习中“零优势问题”的训练框架,从而增强大语言模型的推理探索能力。