Agent-ToM: 通过心智理论推理学习监控自主LLM智能体
摘要
提出 Agent-ToM,一种基于心智理论推理的学习监控框架,通过推断信念和意图来检测自主LLM智能体中的隐蔽恶意行为,性能优于基线监控器。
arXiv:2605.24216v1 公告类型:新
摘要:监控自主大型语言模型(LLM)智能体中的隐蔽恶意行为具有挑战性,因为攻击模式具有延迟性、上下文依赖性和长周期特点。智能体可能在表面上保持良性行为的同时追求隐藏目标,即使完全访问其轨迹也难以检测。先前的监控方法改进了脚手架或集成聚合,但独立处理每条轨迹,并未从先前的监控经验中学习。此外,标准推理方法解释了观察到的行为,但没有明确推理智能体的信念、意图和目标一致性,而这些是区分良性任务执行与隐蔽偏离所必需的。
我们提出 \textbf{Agent-ToM},一种基于心智理论(ToM)推理的学习监控框架,用于自主智能体的安全分析。Agent-ToM 通过推断信念、具有校准置信度的意图假设、预期行动以及与任务一致行为基线的偏离,进行结构化全轨迹分析。在推理时,它采用 \textit{Reason-Verify-Refine}(推理-验证-精炼)流程来构建和验证监控决策。在训练时,Agent-ToM 将批评信号提炼到持久的 \textit{语义护栏记忆} 中,从而实现跨情节可重用的信念和意图条件约束。我们在对抗性智能体监控基准(SHADE-Arena 和 CUA-SHADE-Arena)上评估了 Agent-ToM。Agent-ToM 实现了精确率-召回率的良好平衡,并优于最先进的监控基线(包括集成方法),同时使用一致的两次调用推理流程。这些结果表明,在监控层进行学习,结合结构化的 ToM 推理和验证,为保护自主LLM智能体提供了有效且可部署的基础。
查看缓存全文
缓存时间: 2026/05/26 09:02
# Agent-ToM: 基于心智理论推理的学习式自主 LLM 智能体监控
来源:https://arxiv.org/html/2605.24216
###### 摘要
监控自主大型语言模型(LLM)智能体是否存在隐蔽恶意行为(例如,暗中追求隐藏的恶意目标)极具挑战性,原因是攻击模式具有延迟性、上下文依赖性和长跨期性。在对抗性场景(如破坏任务)中,智能体可能在保持表面良性行为的同时追求隐藏目标,即使拥有完整轨迹也难以检测。先前的监控方法主要改进监控框架或集成聚合,但将每条轨迹独立处理,且未从先前监控经验中学习。此外,标准推理方法能解释观察到的行为,但并未明确推理智能体的信念、意图和目标一致性——而这是区分良性任务执行与隐蔽偏离所必需的。我们提出 **Agent-ToM**,一个基于心智理论(Theory-of-Mind, ToM)推理的学习式监控框架,用于自主智能体的安全分析。Agent-ToM 通过推理信念、带有校准置信度的步骤级意图假设、预期动作以及与任务一致行为基线的偏离,执行结构化全轨迹分析。推理时,它采用 **Reason–Verify–Refine** 流水线构建并验证监控决策;训练时,Agent-ToM 通过将批评信号蒸馏到持久的**语义护栏记忆中**来从先前的监控片段中学习,从而积累监控策略,实现跨片段可重用的信念和意图条件约束。我们在对抗性智能体监控基准(SHADE-Arena 和 CUA-SHADE-Arena)上评估了 Agent-ToM。Agent-ToM 实现了精确率与召回率的良好平衡,并使用单一连贯推理流水线超越了包括集成方法在内的最先进监控基线。这些结果表明,**在监控层进行学习**,结合结构化的 ToM 推理与验证,为保护自主 LLM 智能体提供了有效且可部署的基础。
## 1 引言
自主大型语言模型(LLM)智能体正越来越多地被部署用于执行涉及工具使用、代码执行以及与外部系统交互的多步骤任务(Yao 等,2022 (https://arxiv.org/html/2605.24216#bib.bib10);Schick 等,2023 (https://arxiv.org/html/2605.24216#bib.bib11))。虽然这类智能体实现了强大的自动化,但也引入了新的安全风险:它们可能表现出隐蔽的不当行为,违反安全策略或偏离预期用户目标。此外,恶意行为可能延迟、依赖于上下文,并分布在长跨期交互轨迹中,导致短跨期或基于动作的监控器难以检测。因此,有效监控需要对完整轨迹进行推理,推断表面动作之外的意图,并区分合法任务执行与隐蔽偏离。
近期关于智能体监控的工作主要通过脚手架策略(如分块、层次分解、顺序或滑动窗口分析以及集成聚合)来改善检测(Kutasov 等,2025 (https://arxiv.org/html/2605.24216#bib.bib1);Kale 等,2025 (https://arxiv.org/html/2605.24216#bib.bib3);Stickland 等,2025 (https://arxiv.org/html/2605.24216#bib.bib2);Luo 等,2025 (https://arxiv.org/html/2605.24216#bib.bib4))。虽然这些方法改善了长轨迹的覆盖范围,但它们将每条执行轨迹独立处理,并依赖固定检测启发式或模型输出的聚合。结果,监控系统未能从先前的失败中学习,也缺乏积累关于对抗行为可重用知识的机制。此外,它们没有明确建模智能体行为背后的信念、意图和目标一致性,限制了区分良性偏离与隐蔽恶意意图的能力。在实践中,这导致在演化的攻击策略下性能脆弱,并将负担转移到日益复杂的监控框架、集成策略和阈值调优上。
然而,在实际部署环境中,监控智能体必须**在监控层进行学习**。监控器不应每次孤立地评估每条轨迹,而应通过吸收过去事件的经验教训来适应(Suzgun 等,2026 (https://arxiv.org/html/2605.24216#bib.bib12);Hu 等,2025 (https://arxiv.org/html/2605.24216#bib.bib13))。此外,监控所需的推理抽象与任务求解推理有本质不同。虽然通用思维链解释可以描述智能体做了什么,但未能捕捉其为何那样做、其信念是否与所述任务一致、或者观察到的偏离反映了良性探索还是恶意意图(Wagner 等,2025 (https://arxiv.org/html/2605.24216#bib.bib14))。因此,我们不将监控视为轨迹上的无状态分类问题,而是一个基于学习的推理过程,通过从智能体轨迹中积累和精炼可重用行为约束来演化。
我们提出 **Agent-ToM**,一个基于心智理论(ToM)推理的学习式监控框架,用于自主 LLM 智能体的安全分析。Agent-ToM 通过信念、推断的意图、预期动作以及与任务一致行为基线的偏离,对完整轨迹进行结构化分析。为了使这一推理鲁棒且自适应,Agent-ToM 集成了 **Reason–Verify–Refine** 推理范式:首先构建关于智能体行为的假设并通过结构化 ToM 推理产生初始分类,然后基于证据充分性和一致性进行验证,并可选地精炼。此外,Agent-ToM 利用持久的语义护栏记忆,通过从先前监控片段中蒸馏可重用的信念和意图条件约束来积累监控策略,从而无需重新训练底层模型或修改监控器即可实现跨片段学习。这种设计使监控决策能够被显式构建、批判性评估、重用并迭代改进。
我们在源自 SHADE-Arena(Kutasov 等,2025 (https://arxiv.org/html/2605.24216#bib.bib1))的对抗性监控基准上评估 Agent-ToM,该基准为智能体提供一个良性主任务外加一个隐藏恶意任务,覆盖 1717 个任务对(即智能体应用)。此外,我们在最近的 CUA-SHADE-Arena 基准(Kale 等,2025 (https://arxiv.org/html/2605.24216#bib.bib3))上评估了分布外性能,该基准将 TheAgentCompany(Xu 等,2024 (https://arxiv.org/html/2605.24216#bib.bib8))扩展到通用计算机使用智能体,并提供 15 个主-隐藏任务对。我们专注于涵盖多种对抗策略(包括欺骗、混淆和针对监控器的攻击)的具有挑战性的轨迹。在多种配置下,Agent-ToM 实现了良好的精确率-召回率平衡和具有竞争力的 AUC,匹配或超越了使用复杂框架和多次 LLM 调用的强集成监控基线,同时仅使用包含两次 LLM 调用的单一连贯推理流水线进行推理。这些结果表明,基于信念和意图的监控,结合验证和经验驱动的监控策略学习,为保护自主 LLM 智能体提供了有效、高效且可部署的基础。
#### 贡献。我们总结本文贡献如下:
1. **基于心智理论推理的学习式智能体监控**。我们引入 *Agent-ToM*,一个基于心智理论推理的统一学习式认知监控框架,对自主智能体行为进行结构化全轨迹分析以进行安全分析。
2. **通过信念和意图推理进行结构化行为分析**。Agent-ToM 推断信念和带有置信度的步骤级意图假设,以及预期动作和任务特定行为基线,从而在表面轨迹模式之外实现基于证据的良性行为与恶意行为区分。
3. **用于监控的 Reason–Verify–Refine 推理范式**。Agent-ToM 利用一种结构化推理范式,首先通过 ToM 推理产生初始假设和分类,然后基于证据充分性和一致性进行验证并可选项地精炼,从而提高监控决策的鲁棒性和校准性。
4. **批评驱动的监控策略学习**。训练时,Agent-ToM 通过将片段轨迹中的批评信号蒸馏到持久语义护栏记忆中来学习监控策略,捕捉跨片段泛化的可重用行为约束。
## 2 提出框架
我们提出 Agent-ToM,一个基于学习的自主 LLM 智能体监控框架。Agent-ToM 不将监控视为智能体轨迹上的无状态分类问题,而是将其形式化为一个基于学习的推理问题,通过从先前经验中积累和精炼可重用监控策略来演化。Agent-ToM 将监控分解为对潜在智能体状态的结构化推理和批评驱动的可重用行为约束学习。推理时,框架对完整执行轨迹进行推理,以推断信念、意图、预期动作以及与任务一致行为的偏离。训练时,它将来自先前片段的批评信号转换为语义护栏记忆,指导未来的监控决策。
### 2.1 问题定义与威胁模型
我们考虑在扩展片段中运行的自主或半自主智能体的监控问题。每个智能体被分配一个**主任务**——由用户或操作员提供的合法任务,并且可能额外追求一个与前任务冲突的**隐藏副任务**(违反安全策略或用户意图)。智能体的不当行为是**隐蔽的**:它试图在完成副任务的同时保持与主任务一致的表面良性行为,即使拥有完整轨迹也难以检测。每个片段产生一个**片段执行轨迹** τ = (o₁, a₁, …, o_T, a_T),包含随时间变化的观察、智能体动作、中间决策和工具交互。给定轨迹 τ,监控系统 A 产生预测 (y, c, r) = A(τ),其中 y ∈ {benign, malicious} 是预测标签,c 是校准的置信度分数,r 是可解释的理由,适用于下游分析或人工审查。与轨迹上的标准分类问题不同,监控 LLM 智能体需要对长跨期交互轨迹进行推理,推断关于潜在智能体状态(如信念和意图)的假设,并评估观察到的行为是否与任务一致期望对齐或反映隐蔽偏离。
我们将智能体监控问题形式化为一个基于学习的过程,其中监控系统 A 通过一个可重用行为约束的学习记忆 M 利用先前经验。给定轨迹 τ,系统产生 (y, c, r) = A(τ; M),其中 M 编码从先前监控片段 {τ'} 蒸馏的语义护栏,使系统能够在当前轨迹之外引导推理并跨片段泛化。
#### 威胁模型。我们采用 Kale 等(2025 (https://arxiv.org/html/2605.24216#bib.bib3))的 Monitor Red Teaming (MRT) 威胁模型,该模型沿两个轴刻画对抗场景:智能体意识和监控器意识。监控器始终处于**aware**设置:它可以访问智能体的完整执行轨迹 τ(包括所有动作和中间思维链推理),并知道主任务规范,但无法访问隐藏副任务或关于所追求具体恶意目标的先验知识。智能体可能意识或未意识到监控器:我们在一个**unaware**基线(智能体对监控器的存在不知情)和五种**aware**规避策略(智能体积极尝试通过 CoT 混淆、越狱式欺骗、混合策略和直接监控器劫持来逃避检测)上进行评估。约 85% 的恶意 SHADE-Arena(Kutasov 等,2025 (https://arxiv.org/html/2605.24216#bib.bib1))轨迹涉及 aware 智能体,代表了严格更难威胁模型设置。CUA-SHADE-Arena(Kale 等,2025 (https://arxiv.org/html/2605.24216#bib.bib3);Xu 等,2024 (https://arxiv.org/html/2605.24216#bib.bib8))完全使用 aware 智能体,在最强威胁模型配置下提供分布外评估。规避策略的完整细节见附录 A (https://arxiv.org/html/2605.24216#A1)。

**图 1:Agent-ToM 推理:用于智能体监控的 Reason–Verify–Refine 推理流水线。**给定一个片段执行轨迹,Reason 阶段执行心智理论(ToM)推理,构建关于信念、意图和预期动作的假设,产生初始监控预测。Verify 阶段通过重新评估证据支持和检查替代解释来评估该预测,并可能确认或修正评估的威胁等级。Refine 阶段产生最终校准的监控输出,包括威胁等级、置信度和理由,并参考训练期间从记忆中学到的语义护栏。
### 2.2 用于智能体监控的心智理论推理
心智理论(ToM)指的是将信念、意图和目标等心理状态归因于其他智能体,并利用这些归因来解释和预测其行为的认知能力(Premack 和 Woodruff,1978 (https://arxiv.org/html/2605.24216#bib.bib17);Wellman 等,2001 (https://arxiv.org/html/2605.24216#bib.bib18))。正如 Wagner 等(2025 (https://arxiv.org/html/2605.24216#bib.bib14))所论证的,有效的 ToM 推理需要两个步骤:首先显式地调用结构化心理状态推理,然后根据这些推断的状态应用分类。标准监控方法通过直接推理到分类决策来合并这些步骤,而无需首先显式推断生成观察行为背后的信念和意图。在本工作中,我们使用“心智理论”一词来指代从观察到的智能体行为中对潜在心理变量(信念、意图、预期动作以及与任务一致行为的偏离)的结构化推理,而不是学习智能体的显式认知模型。
我们注意到,当智能体通过 CoT 混淆、欺骗或监控器劫持积极隐藏其意图时,仅从轨迹进行直接心理状态观察是不可能的。因此,Agent-ToM 结合了溯因推理(通过识别最能解释观察轨迹的假设)与 ToM 启发的推理结构(围绕信念、意图和预期动作组织推理)。这种组合使得结构化假设生成与评估成为可能,同时在认识论上仍基于可观察行为。尽管有此限制,Agent-ToM 建立在 Simul相似文章
OmniToM: 通过显式信念建模对大语言模型的心智理论进行基准测试
OmniToM 引入了一个基准测试,通过要求显式提取和标注信念结构来评估大语言模型的心智理论,揭示了尽管模型在端点问答任务上表现强劲,但在跟踪角色特定信念方面存在瓶颈。
OSCToM: RL引导的对抗生成用于高阶心智理论
本文提出OSCToM,一种RL引导的方法,用于生成对抗数据以测试LLM中的嵌套信念冲突,在FANToM等基准上改进了心智理论推理。
行动中的心智理论:动态人-智能体协作中的指令推理任务
本文引入指令推理任务,用于评估LLM智能体在处理不完整或模糊指令的人-智能体协作中的心智理论能力。作者呈现了Tomcat(一个LLM智能体),在GPT-4o、DeepSeek-R1和Gemma-3-27B上进行测试,展现出与人类参与者相当的推理未言明意图的性能。
心智理论提升是否真的有益于人机交互?来自交互评估的实证发现
本文针对大语言模型的心智理论能力提出了一种新的交互评估范式,发现静态基准测试上的提升并不能转化为动态人机交互中的更好表现,凸显了基于交互评估的必要性。
评估思维链的可监控性
OpenAI研究人员引入了一个框架和一套包含13项评估的系统,用于衡量大型语言模型中思维链的可监控性。研究发现,监控推理过程比仅监控输出有效得多,这为AI安全及规模化监督提供了重要启示。