标签
MindZero 提出了一种自监督强化学习框架,用于训练多模态大语言模型,使其能够高效且鲁棒地进行在线心智推理,而无需心智状态标注,在准确性和效率上均优于基于模型的方法。
本文介绍了一种可微分的基于信念的对手塑造(D-BOS)方法,这是一种一阶方法,将观察者的信念视为被塑造的状态,并通过信念更新动态进行微分,从而允许在隐藏角色多智能体环境中,最优策略自然地源于环境的奖励结构。
OmniToM 引入了一个基准测试,通过要求显式提取和标注信念结构来评估大语言模型的心智理论,揭示了尽管模型在端点问答任务上表现强劲,但在跟踪角色特定信念方面存在瓶颈。
提出 Agent-ToM,一种基于心智理论推理的学习监控框架,通过推断信念和意图来检测自主LLM智能体中的隐蔽恶意行为,性能优于基线监控器。
本文提出OSCToM,一种RL引导的方法,用于生成对抗数据以测试LLM中的嵌套信念冲突,在FANToM等基准上改进了心智理论推理。
本文针对大语言模型的心智理论能力提出了一种新的交互评估范式,发现静态基准测试上的提升并不能转化为动态人机交互中的更好表现,凸显了基于交互评估的必要性。
本文引入指令推理任务,用于评估LLM智能体在处理不完整或模糊指令的人-智能体协作中的心智理论能力。作者呈现了Tomcat(一个LLM智能体),在GPT-4o、DeepSeek-R1和Gemma-3-27B上进行测试,展现出与人类参与者相当的推理未言明意图的性能。
OpenAI 和牛津大学研究人员提出了 LOLA(Learning with Opponent-Learning Awareness),这是一种强化学习方法,使智能体能够建模并考虑其他智能体的学习,在迭代囚徒困境和硬币游戏等多智能体博弈中发现合作策略。