行动中的心智理论:动态人-智能体协作中的指令推理任务
摘要
本文引入指令推理任务,用于评估LLM智能体在处理不完整或模糊指令的人-智能体协作中的心智理论能力。作者呈现了Tomcat(一个LLM智能体),在GPT-4o、DeepSeek-R1和Gemma-3-27B上进行测试,展现出与人类参与者相当的推理未言明意图的性能。
arXiv:2507.02935v3 公告类型:替换
摘要:成功的人-智能体团队协作依赖于智能体能够理解(人类)委托人给出的指令。在许多情况下,指令可能是不完整或模糊的。在这些情况下,智能体必须从共享的上下文中推断未言明的意图,即它必须行使委托人的心智理论(ToM)并推断其委托人的心理状态。我们研究了使用大语言模型(LLM)进行有效人-智能体协作的前景。为了在动态、目标导向和协作的环境中评估ToM,我们引入了一项新颖任务——指令推理,其中智能体通过解释不完整或模糊的指令来协助委托人实现目标。我们呈现了Tomcat,一个基于LLM的智能体,旨在在解释和响应委托人指令时表现出ToM推理能力。我们实现了Tomcat的两个变体。一个名为Fs-CoT(Fs代表少量示例,CoT代表思维链),基于展示所需结构化推理的少量示例。另一个名为CP(常识提示),依赖常识和关于问题的信息。我们在三个领先的LLM上实现了Tomcat的两个变体,即GPT-4o、DeepSeek-R1和Gemma-3-27B。为了评估Tomcat的有效性,我们进行了一项研究,包含52名人类参与者,为参与者提供了与CP变体相同的信息。我们计算了意图准确率、行动最优性和规划最优性,以衡量Tomcat及我们研究参与者的ToM能力。我们发现Tomcat使用Fs-CoT,特别是在GPT-4o和DeepSeek-R1上,达到了与人类参与者相当的性能,凸显了其在人-智能体协作中的ToM潜力。
查看缓存全文
缓存时间: 2026/04/20 08:31
# 行动中的心智理论:动态人机协作中的指令推理任务 来源: https://arxiv.org/html/2507.02935 ###### 摘要 成功的人机团队合作需要**代理**能够理解由**人类主体**给出的指令。在许多情况下,指令可能不完整或模糊。在这种情况下,代理必须从共享上下文中推断未言明的意图,即代理必须运用主体的心智理论(ToM)并推断其主体的心理状态。我们考察了使用大型语言模型(LLM)进行有效人机协作的前景。为了在动态、目标导向和协作环境中评估ToM,我们引入了一项新颖的任务——**指令推理**,其中**代理**通过解释不完整或模糊的指令来帮助**主体**实现目标。我们提出**Tomcat**,一个基于LLM的代理,设计用来在解释和响应主体指令时展现ToM推理能力。我们实现了Tomcat的两个变体。一个名为Fs-CoT(Fs表示少样本,CoT表示思维链),基于少量示例来演示所需的结构化推理。另一个名为CP(常识提示),依赖常识知识和问题信息。我们在三个领先的LLM上实现了Tomcat的两个变体,即GPT-4o、DeepSeek-R1和Gemma-3-27B。为了评估Tomcat的有效性,我们进行了一项包含52名人类参与者的研究,为参与者提供了与CP变体相同的信息。我们计算了意图准确性、行动最优性和规划最优性,以衡量Tomcat和研究参与者的ToM能力。我们发现Tomcat的Fs-CoT变体,特别是在GPT-4o和DeepSeek-R1上,达到了与人类参与者相当的性能,彰显了其在人机协作中的ToM潜力。 ###### 关键词: 心智理论;人机协作;大型语言模型;指令解释;模糊性 ††期刊:人工智能 \\affiliation [ncsu]organization=北卡罗来纳州立大学,city=罗利, state=NC, country=美国 \\affiliation[tud]organization=代尔夫特理工大学,city=代尔夫特, country=荷兰 ## 1 引言 自然交流很少局限于字面语言[1](https://arxiv.org/html/2507.02935#bib.bib1)、[2](https://arxiv.org/html/2507.02935#bib.bib2)。相反,协作者经常使用间接表达,其预期含义必须从上下文线索和共享任务理解中推断[3](https://arxiv.org/html/2507.02935#bib.bib3)、[4](https://arxiv.org/html/2507.02935#bib.bib4)、[5](https://arxiv.org/html/2507.02935#bib.bib5)。因此,成功的协作以能够解释不完整和模糊语言的能力为前提,这反过来又以对协作者心理状态的理解为前提[6](https://arxiv.org/html/2507.02935#bib.bib6)、[7](https://arxiv.org/html/2507.02935#bib.bib7)。将另一个实体建模为具有*思维*(例如信念和意图)的能力,被称为具有心智理论(ToM)[8](https://arxiv.org/html/2507.02935#bib.bib8)、[9](https://arxiv.org/html/2507.02935#bib.bib9)。ToM使人们能够推断未言明的意图,并对间接线索做出适当的响应[10](https://arxiv.org/html/2507.02935#bib.bib10)。 \\includestandalone [width=mode=image]tikz/motivation-unclear-1 \\includestandalone [mode=image,width=]tikz/motivation-unclear-2 **图1:** 传统代理与LLM代理解释不清楚指令的对比,后者考虑了语用上下文执行任务。 例如,协作者可能会说"你能拿那个吗?"同时指向共享环境中的对象(例如钥匙)。解释这样的指令需要根据上下文线索和共享任务理解推断哪个对象被要求,因此需要ToM推理。在一阶ToM级别,这可能涉及这样的推理:"我相信你想要红色钥匙。"在更复杂的情况下,协作者可能会进行更高阶的推理,即二阶ToM,其中一方对另一方的信念进行推理,例如"我相信你相信我知道需要哪把钥匙。"这种更高阶的推理常见于涉及说服、谈判或欺骗的战略互动[11](https://arxiv.org/html/2507.02935#bib.bib11)、[12](https://arxiv.org/html/2507.02935#bib.bib12)、[13](https://arxiv.org/html/2507.02935#bib.bib13)。 然而,在合作环境中,解决不清楚的指令通常依赖于对协作者直接目标和意图的推理,这可以通过一阶ToM来捕捉[4](https://arxiv.org/html/2507.02935#bib.bib4)、[6](https://arxiv.org/html/2507.02935#bib.bib6)、[14](https://arxiv.org/html/2507.02935#bib.bib14)。 为AI代理配备ToM可以促进更自然和有效的人机交互[15](https://arxiv.org/html/2507.02935#bib.bib15),特别是在交流不完整或模糊的设置中[4](https://arxiv.org/html/2507.02935#bib.bib4)。然而,传统的自主代理在历史上一直难以解释这种语言。先前在指令遵循和人机协作方面的工作表明,缺乏语用上下文的代理[16](https://arxiv.org/html/2507.02935#bib.bib16)、[17](https://arxiv.org/html/2507.02935#bib.bib17)、[18](https://arxiv.org/html/2507.02935#bib.bib18)倾向于字面解释指令,因此在指令不完整或模糊时失败[3](https://arxiv.org/html/2507.02935#bib.bib3)、[5](https://arxiv.org/html/2507.02935#bib.bib5)。因此,这些代理通常无法从动态任务环境中的上下文线索推断协作者的预期目标,如图1所示。 大型语言模型(LLM)的出现提供了弥合这一差距的有前景的途径。LLM已经展现了考虑语用上下文和执行复杂语言推理的新兴能力[19](https://arxiv.org/html/2507.02935#bib.bib19)、[20](https://arxiv.org/html/2507.02935#bib.bib20)、[21](https://arxiv.org/html/2507.02935#bib.bib21)、[22](https://arxiv.org/html/2507.02935#bib.bib22)。最近的研究表明这些模型可能通过建模他人的心理状态来展现ToM能力[23](https://arxiv.org/html/2507.02935#bib.bib23)、[20](https://arxiv.org/html/2507.02935#bib.bib20)。然而,对LLM的ToM能力的评估依赖于静态基准,如假信念、社交尴尬或会话推理任务。例如,Strachan等人[19](https://arxiv.org/html/2507.02935#bib.bib19)通过提供简短会话片段后跟针对性问题来衡量LLM的ToM能力,以评估LLM如何推理另一方的心理状态。这些设置评估关于心理状态的推理,但不测试代理是否能够使用这样的推理来解释*不清楚的指令*并在*协作任务环境*中采取适当行动,如图1的对比所示。 为了应对这一挑战,我们引入了一项新的ToM任务——**指令推理**,包含20个不同的问题场景。每个场景评估代理从清楚和不清楚的指令推断主体(模拟人类)的预期目标的能力,以及在协作环境中采取适当行动的能力。我们使用术语*指令*来指代主体发出的命令、请求或指令。 为了指导数据集的设计,我们借鉴了格赖斯的会话含义理论[1](https://arxiv.org/html/2507.02935#bib.bib1)。格赖斯指出合作交流由四个会话准则指导:数量、质量、关系和方式。违反这些准则会触发语用推理,要求听众推断说话者的预期含义,超越字面表述。我们根据这一框架区分了两种类型的不清楚指令。 - **不完整**指令遗漏了确定预期行动所需的关键信息;它们对应于数量准则的违反。 - **模糊**指令产生两个或多个可能的解释;它们对应于方式准则的违反。 我们专注于这两个类别,因为数量和方式准则的违反在合作环境中很常见,协作者假设共享上下文和任务理解[3](https://arxiv.org/html/2507.02935#bib.bib3)、[4](https://arxiv.org/html/2507.02935#bib.bib4)、[5](https://arxiv.org/html/2507.02935#bib.bib5)。相比之下,质量和关系准则的违反不太是合作协作的特征,因为它们通常对应于欺骗或会话故障。 我们使用**Tomcat**实现这项任务,一个基于LLM的代理部署在称为"门、钥匙和宝石"的协作环境中[3](https://arxiv.org/html/2507.02935#bib.bib3),如图3所示。在这个环境中,Tomcat通过检索钥匙或解锁门来帮助其主体实现收集宝石的目标。Tomcat通过对任务环境和主体动作进行推理来解释清楚和不清楚的指令。 我们的研究使用了Tomcat的两个变体——**少样本思维链(Fs-CoT)提示**和**常识提示(CP)**(图2)。Tomcat的Fs-CoT利用上下文学习[24](https://arxiv.org/html/2507.02935#bib.bib24)和少样本思维链提示[25](https://arxiv.org/html/2507.02935#bib.bib25)来融入任务知识和上下文线索,以推断主体的预期目标。Tomcat的CP依赖关于指令推理任务的常识知识,包含两个详细的问题演练。 **图2:** 指令推理任务的Tomcat和参与者的流程。 我们在三个LLM——GPT-4o、DeepSeek-R1和Gemma-3-27B——上实现了Tomcat的两个变体,并将其ToM能力与人类参与者进行比较。为了建立比较基准,我们进行了一项包含52名人类参与者的实证研究,他们在与Tomcat的CP相同的条件下执行相同的指令推理任务,即使用相同的信息和目标。这项评估由以下研究问题框架: **RQ1:** Tomcat在指令推理上的ToM能力与人类性能相比如何? **RQ2:** Tomcat的Fs-CoT是否优于指令推理上的Tomcat的CP? 总结一下,我们的**贡献**如下: 1. **指令推理任务** 我们引入指令推理,这是一项在协作环境中评估ToM的新颖任务,其中指令可能是清楚或不清楚的(不完整或模糊)。与主要依赖叙述或会话场景的现有ToM基准不同,指令推理评估代理是否能够从清楚和不清楚的指令推断主体的预期目标,并在共享任务环境中采取适当行动。 2. **用于指令推理的Tomcat代理** 我们开发了**Tomcat**,一个基于LLM的代理,通过对语用上下文和主体行动进行推理,在动态环境中执行指令推理。我们研究了Tomcat的两个变体:使用七个推理示例的**少样本思维链(Fs-CoT)**变体,和依赖任务知识和两个问题演练的**常识提示(CP)**变体。 3. **与人类参与者的实证评估** 我们进行了实证评估,将Tomcat两个变体的ToM能力(在三个LLM上实现:GPT-4o、DeepSeek-R1和Gemma-3-27B)与52名人类参与者在我们的指令推理任务上的能力进行比较。我们的结果表明GPT-4o和DeepSeek-R1的Fs-CoT变体达到了与人类参与者相当的性能。 后续部分提供了对我们流程中每个模块的系统分析,如图2所示。 ## 2 相关工作 #### ToM基准 基于LLM的最近成功,Strachan等人[19](https://arxiv.org/html/2507.02935#bib.bib19)在包括假信念、社交尴尬、讽刺、奇怪故事和提示任务的ToM任务上评估了GPT-4、GPT-3.5和Llama2-70B等模型。这些任务采用实际会话社交场景,与我们的目标驱动协作设置不同。Strachan等人[19](https://arxiv.org/html/2507.02935#bib.bib19)报告GPT-4在讽刺、提示和奇怪故事上优于人类,但在社交尴尬上不如人类。类似地,Kosinski[20](https://arxiv.org/html/2507.02935#bib.bib20)使用结构化认知框架测试基础ToM概念,如信念归因和关于心理状态的推理,揭示了高级LLM如GPT-4在某些任务上表现出类人推理,但在细微场景中不能。 Kim等人[26](https://arxiv.org/html/2507.02935#bib.bib26)引入了**FANToM**,一个会话基准,在不对称信息下评估心理状态推理。Chan等人[27](https://arxiv.org/html/2507.02935#bib.bib27)提出**NegotiationToM**,一个基于信念-欲望-意图(BDI)框架的基准,在从CaSiNo数据集[28](https://arxiv.org/html/2507.02935#bib.bib28)衍生的谈判对话中评估ToM推理。Gandhi等人[21](https://arxiv.org/html/2507.02935#bib.bib21)引入BigToM,一个大规模基准,将经典的基于叙述的ToM任务扩展到评估各种社交场景中的信念推理。 #### 更高阶的ToM推理 Street[29](https://arxiv.org/html/2507.02935#bib.bib29)主张LLM的ToM能力可以帮助改善人机协作。Street等人[30](https://arxiv.org/html/2507.02935#bib.bib30)开发了多阶心智理论问答(MoToMQA)测试套件,以评估LLM在需要关于嵌套心理状态的递归推理的ToM任务上的表现(二阶至六阶)。他们展示了GPT-4处理对于理解复杂社交互动至关重要的深度递归推理的能力。Jamali等人[31](https://arxiv.org/html/2507.02935#bib.bib31)分析了LLM中的隐藏嵌入,并识别了对真实和假信念任务有反应的神经元样单位,与人类的ToM处理相平行。 #### 多智能体系统中的ToM 最近的工作已将ToM扩展到更复杂的域,如多智能体系统、自动规划和多模态环境。Rocha等人[32](https://arxiv.org/html/2507.02935#bib.bib32)回顾了ToM在多智能体系统中的使用,注意到它在改善协调、生成解释、提供帮助和建模欺骗方面的价值。在规划中,Shvo等人[33](https://arxiv.org/html/2507.02935#bib.bib33)使用ToM来帮助代理识别关于计划有效性的相互矛盾的信念,并通过直接交流或物理行动纠正这些误解。Shi等人[34](https://arxiv.org/html/2507.02935#bib.bib34)引入MuMA-ToM,一个多模态多智能体基准,用于使用视频和文本上下文推断代理在日常家务活动中的信念和社交目标。Yim等人[35](https://arxiv.org/html/2507.02935#bib.bib35)采用合作纸牌游戏*拱猪*并展示了基于ToM的规划如何帮助LLM代理与盟友更好地协调并针对对手调整策略。 **表1:** ToM基准在格式、模态、协作设置和指令类型上的比较。 #### 多智能体强化学习中的ToM
相似文章
心智理论提升是否真的有益于人机交互?来自交互评估的实证发现
本文针对大语言模型的心智理论能力提出了一种新的交互评估范式,发现静态基准测试上的提升并不能转化为动态人机交互中的更好表现,凸显了基于交互评估的必要性。
Agent-ToM: 通过心智理论推理学习监控自主LLM智能体
提出 Agent-ToM,一种基于心智理论推理的学习监控框架,通过推断信念和意图来检测自主LLM智能体中的隐蔽恶意行为,性能优于基线监控器。
OmniToM: 通过显式信念建模对大语言模型的心智理论进行基准测试
OmniToM 引入了一个基准测试,通过要求显式提取和标注信念结构来评估大语言模型的心智理论,揭示了尽管模型在端点问答任务上表现强劲,但在跟踪角色特定信念方面存在瓶颈。
OSCToM: RL引导的对抗生成用于高阶心智理论
本文提出OSCToM,一种RL引导的方法,用于生成对抗数据以测试LLM中的嵌套信念冲突,在FANToM等基准上改进了心智理论推理。
面向低延迟多智能体工具调用的有状态推理架构
本文提出了一种用于多智能体工具调用的有状态推理架构,该架构在多次调用之间复用KV缓存,并采用推测解码技术,相较于vLLM和SGLang,在智能体工作流上实现了2.1倍至4.2倍的加速。