已完成,但不确定:在具身智能体中解耦世界完成与自我终止
摘要
本文介绍了 Vigil,这是一个用于评估具身智能体的框架,它将任务执行成功与智能体正确识别和报告任务完成的能力区分开来。
arXiv:2605.08747v1 公告类型:新文章
摘要:标准的具身评估并未独立衡量智能体在回合结束时是否正确地承诺任务已完成,我们将这种能力称为“终端承诺”。行为上截然不同的失败模式——从未完成任务、完成任务但未能停止、以及在证据不足的情况下报告成功——在基准测试中会坍缩为同一种失败。我们引入了 VIGIL,一个使终端承诺可独立测量的评估框架。在 VIGIL 的默认协议下,智能体仅观察自我中心的 RGB 图像,接收不到动作成功信号,并且必须在每个回合结束时提供一份语义报告,该报告将与隐藏的世界状态进行确定性检查。这产生了两个独立的分数:世界状态完成度(W)和基准测试成功度(B),其中 B 还需要正确的终端报告。这种解耦使得四种结果类别可以被区分:执行遗漏、达成后的漂移、无依据的承诺以及已验证的成功。在 1,000 个冻结回合的 20 个模型上,W 值相近的系统在 B 值上相差高达 19.7 个百分点:一个模型能将达成的状态转化为正确的报告,而另一个执行几乎相同的模型则在目标之外漂移而没有结束。一项动作反馈干预进一步测试了这种分离:面向执行的信号普遍提高了 W,但在未将终端报告建立在已达成状态上的模型中,承诺失败依然存在。VIGIL 提供了一种使终端承诺可独立可见和可评分的协议。
查看缓存全文
缓存时间: 2026/05/12 07:22
# 已完成,但不确定:在具身智能体中解耦世界状态完成与自主终止
来源: https://arxiv.org/html/2605.08747
Ying Chen<sup>1</sup> Rui Jiang<sup>1</sup> Lihuang Fang<sup>1</sup> Mingxu Wang<sup>1</sup> Zhifeng Gu<sup>1,2</sup> Lei Yi<sup>1</sup> Jie Chen<sup>1</sup>†
<sup>1</sup>XPENG Robotics <sup>2</sup>The Hong Kong Polytechnic University
###### 摘要
标准的具身评估并不独立评分智能体是否在 episode(回合/情境)结束时正确承诺任务已完成,我们将这种能力称为**终端承诺(terminal commitment)**。行为上截然不同的失败模式——从未完成任务、完成任务但未能停止、以及在没有充分证据的情况下报告成功——在现有基准中往往被归为同一类失败。我们引入了 **Vigil**,一个评估框架,使得终端承诺可以独立测量。在 Vigil 的默认协议下,智能体仅观察以自我为中心的 RGB 图像,接收不到任何动作成功的信号,并且必须在每个 episode 结束时提交一份语义报告,该报告将与隐藏的世界状态进行确定性检查。这产生了两个独立的分数:世界状态完成度($W$)和基准成功率($B$),其中 $B$ 还要求终端报告正确。这种解耦使得四种结果类别得以区分:执行缺失、达成后的漂移、无支持的承诺、以及验证过的成功。在 1,000 个冻结 episode 上对 20 个模型的测试显示,具有相似 $W$ 的系统在 $B$ 上相差可达 19.7 个百分点:一个模型能将已实现的状态转化为正确的报告,而另一个执行效果相近的模型则会越过目标而未进行终止。进一步的行动反馈干预测试了这种分离性:面向执行的信号广泛地改善了 $W$,但在那些未将终端报告扎根于已实现状态的模型中,承诺失败依然存在。Vigil 提供了一种协议,使终端承诺变得独立可见且可评分。
<sup>1</sup>脚注标记: 1
![[无标题图片]](https://arxiv.org/html/2605.08747v1/assets/logo.png)
**已完成,但不确定:在具身智能体中解耦世界状态完成与自主终止**
Ying Chen<sup>1</sup> Rui Jiang<sup>1</sup> Lihuang Fang<sup>1</sup> Mingxu Wang<sup>1</sup> Zhifeng Gu<sup>1,2</sup> Lei Yi<sup>1</sup> Jie Chen<sup>1</sup>†
<sup>1</sup>XPENG Robotics <sup>2</sup>The Hong Kong Polytechnic University
<sup>†</sup>对应作者。<sup>‡</sup>基准和代码将发布。
## 1 引言
具身智能体不仅需要通过行动来完成一项任务,还必须确定任务何时完成,并承诺这一判断。当智能体在部分可观测性下操作,并且必须随着时间推移从有限的自我中心观察中推断任务进展 [1,2],且没有行动反馈或成功信号 [3,4] 时,这并非易事。例如,在一个要求智能体打开台灯的任务中,智能体可能成功打开了灯,但因为未能认识到任务已经完成而继续导航。在当前的具身评估中,这种结果往往与从未完成任务的情况无法区分。
> **图 1:受控评估协议。** Vigil 包含八个任务家族:诊断层(PG, DA, SV, VS)用于隔离单一瓶颈,以及组合层(AI, SI, SM, CR)在多步交互中组合这些能力。所有 episode 均使用严格的第一人称观察和强制报告终止。
据我们所知,目前尚不存在任何具身基准能清晰地将任务终止失败与执行失败分离开来 [5,6,7]。最近的工作改进了技能级别和能力级别的诊断 [8,9,4,10],但整体模型比较仍然通过聚合的任务级或 episode 级成功指标来总结。这些指标将行为上截然不同的情况合并为相同的最终结果:智能体可能未能完成任务、完成任务但未能停止、或在没有充分证据的情况下宣布完成——这些具有不同原因和补救措施的失败在当前指标中被混淆了。
我们引入了 **Vigil**,一个评估框架,使**终端承诺**可以独立测量。该设计有三个关键要素。首先,智能体仅观察自我中心的 RGB 图像,没有特权状态、神谕式的进展信号或行动成功确认。其次,每个 episode 以一份强制性的语义**报告**结束,其内容会与隐藏的世界状态进行确定性检查。第三,这产生了两个独立的分数:世界状态完成度($W$)和基准成功率($B$),其中 $B$ 额外要求正确的终端承诺。
无反馈契约至关重要:如果智能体接收到行动成功信号,正确的报告可能只是通过回显环境确认而产生的,而不是通过从观察中维持任务状态判断而产生的。这一目标不同于先前关于语言智能体自我评估和不确定性的工作 [11,12,13]。我们不是推断潜在的信心或内部信念 [11],而是评估智能体是否通过在 episode 结束时提交可与隐藏世界状态核对的终端报告,表达了正确的任务状态判断。对于状态验证任务(智能体必须报告“开/关”或“开/关”),正确的终端行为是一个范畴性的状态判断,而不仅仅是一个停止的二元决策。因此,仅停止的协议无法代表这类失败,因为错误在于报告内容,而不在于终止时机。
Vigil 在八个任务家族上评估这一维度,这些家族探测了终端判断变得困难的條件(图 1),涵盖目标可见性、距离、状态不确定性、时间依赖性和物理约束。诊断层(短预算、单一瓶颈)在执行可行时隔离终止失败,而组合层(长预算、链式先决条件)则揭示何时执行下限掩盖了终止错误。我们此外使用了一种行动反馈干预,模拟物理机器人可用的本体感觉信号,以测试终止失败是否仅能由上游执行陷阱解释。
#### 主要发现
在跨越开源和闭源前沿模型的 20 个多模态系统上(正文中有 10 个锚定模型;完整面板见附录 F),我们发现执行和终端承诺在经验上是可分离的:
* **结构化的终止失败特征。** 模型表现出不同的终端行为,包括过早的错误承诺(FR)、慢性无报告耗尽(NR)以及选择性报告。这些特征在聚合成功率下不可见,并且在提示变体之间保持稳定。
* **执行下限掩盖终止失败。** 在较长的组合任务中,执行往往在终端判断能够得到有意义评估之前失败,压缩了可观察的差距,并掩盖了诊断层直接隔离的终止错误。
* **执行反馈并非万能解药。** 一种本体感觉行动反馈干预广泛地减少了执行陷阱,但仅改善了那些终端报告已与实现的任务状态耦合的模型的终端报告。
总之,这些结果确定了终端承诺作为一个独特的失败维度:它在经验上可与执行分离,产生一致的步骤级模式,且不能仅通过改善执行来统一修复。据我们所知,Vigil 提供了首个使该维度可独立测量的评估协议,从而能够针对不同具身系统的终端判断进行针对性诊断和比较。
## 2 相关工作
Vigil 与三条研究线索交叉:具身评估、自我评估及相关信心控制、以及面向信念的具身推理。其科学目标是独特的:智能体是否能在 episode 结束时正确判断并报告其实现的任务状态,且该判断独立于执行成功进行评分。表 1 总结了现有设置沿此轴线的比较情况。
> **表 1:代表性具身评估设置及其是否使终端任务状态判断可外部评分。** Vigil 在无反馈的原生控制契约下,使智能体侧的终端承诺可独立评分。列定义:*Native*——智能体通过自然技能调用而非特权 API 命令行事;*Fine-Grained*——超越聚合成功的细粒度技能诊断;*Active Termination*——“Stop”:bare stop action 被吸收进任务成功;“Report”:语义终端判断独立评分;✗:仅评估侧终止;*Decoupled*——“Task”:无独立报告评分的技能分解;“Task+Report”:添加确定性评分的终端承诺;*No Feedback*——无任务进展、目标完成或行动成功的外部确认。
#### 具身评估协议
家庭指令跟随基准定义了由终端成功评估的长视界任务 [5,14,17,18]。后续工作将该设置扩展到模拟保真度 [16]、基于 LLM 的规划 [6]、导航 [7] 和组合操作 [15]。最近的套件增加了技能级别的诊断 [8,4,9,10],改进了感知、导航和操作方面的归因。关键差距仍然存在:终端成功是评估侧针对世界状态的谓词,而不是独立评分的智能体侧判断。因此,执行失败和终止失败在行为上被混淆了。
#### 自我评估、信心与终止决策
几个基准包括一个 `stop` 动作 [5,6,7],但停止是一个被吸收进任务成功而没有独立评估的控制原语。平行文献探讨语言模型是否具有校准的自我知识 [11] 以及信心信号能否触发寻求帮助或重新规划 [12,13]。Vigil 针对不同的可观察量:不是潜在的信心,而是智能体是否产生了一个可针对隐藏世界状态验证的语义正确的终端报告。
#### 具身交互下的信念
视觉语言模型中的空间智能越来越多地在静态图像之外进行研究,涵盖度量推理 [19,20]、视角转换 [21,22,23] 和面向机器人的接地 [24,25,26,27]。这些设置表明,具身交互需要从部分观察中构建和更新表示——这是当前模型仍然难以具备的能力 [28,29]。最近的工作明确指出了这一点:Theory of Space [1] 询问基础模型是否通过主动探索构建空间信念;CubeBench [2] 诊断部分观察下的交互式空间推理。Vigil 共享这种交互下信念的视角,但针对不同的输出:终止时的任务状态判断,而非探索期间的空间信念。
## 3 基准设计
Vigil 分离了标准具身评估中混淆的两个结果:智能体是否正确改变了世界,以及它是否发布了关于该变化的正确终端报告。这需要具有隐藏目标谓词的控制任务家族、无反馈的交互契约,以及独立评估世界状态和报告内容的确定性评分规则。
### 3.1 任务家族
每个冻结的 episode 指定一个任务指令、一个家族标签、步骤和无效动作预算,以及针对模拟器状态检查的隐藏成功条件 $\mathcal{G}$。基准包含 1,000 个 episode,分布在八个平衡的家族中(每个 125 个),组织为针对交互下塑造任务状态判断的因素的控制探测(图 1)。
与最近技能诊断基准 [4,10] 中按特定领域子任务分解不同,我们沿原子感知运动能力进行分解并逐步组合它们。这使得归因精确:当模型在组合任务上失败但在其组成部分上成功时,瓶颈在于组合或终端判断,而不在于组成部分技能。
*诊断层* 以短预算(5-20 步)隔离单一瓶颈:
* **PG** (pixel grounding):点击正确的可见对象;
* **DA** (distance approach):导航到可见目标;
* **VS** (view search):通过主动探索找到不可见目标;
* **SV** (state verification):报告可见对象的范畴状态而无物理交互。
SV 提供了最纯粹的终端承诺测试:大多数模型的世界状态完成度超过 80%,因此 $B$ 中的失败直接暴露判断错误。
*组合层* 在更长预算(25-40 步)下链接这些能力:
* **AI** (approach-and-interact = DA + 交互);
* **SI** (search-and-interact = VS + DA + 交互);
* **SM** (sequential manipulation—多步拾取和放置);
* **CR** (constraint resolving—交互前的障碍物移除)。
完整的家族规范见附录 D。
### 3.2 原生控制契约
Episodes 在 AI2-THOR [30] 与 ProcTHOR [31] 房屋中运行。智能体每步接收单个自我中心 RGB 帧,并通过四项技能行动:运动(`navigate`, `look`)、基于像素的对象交互(`interact_pixel`)和终端报告(`report`)。不提供特权状态或行动成功反馈:智能体接收不到地图、语义掩码、绝对姿态或神谕式进展信号。状态变化仅通过随后的 RGB 观察可见。
遵循最近具身评估的基于对话的原生控制范式 [4,10],智能体维护一个最多 20 轮(每动作一轮)的有界对话历史……相似文章
你使用什么机制来区分“智能体忙碌”和“任务完成”?
本文讨论了AI智能体系统中的一种反模式:智能体看似忙碌却未能完成任务。作者建议通过分离职责并要求完成证明来解决。
逃离自我确认陷阱:面向智能体经验学习的执行-提炼-验证范式
本文提出EDV框架,在执行-提炼-验证阶段使用多个异构智能体为LLM智能体构建可靠经验,防止自我确认错误,并提升在长周期基准测试上的性能。
三思而后行:面向具身智能体的验证器引导动作选择
提出VeGAS框架,一种针对基于MLLM的具身智能体的测试时框架,该框架采样多个候选动作,并利用生成式验证器选择最可靠的动作,在挑战性任务上相比CoT基线实现了高达36%的相对性能提升。
AI代理能完成任务但仍然算失败吗?
本文引入“验证税”(Verifier Tax)概念,将AI代理的结果分类为安全成功、不安全成功或失败,并为使用工具的LLM代理提出了一种双层验证架构。
验证者税:工具使用型LLM智能体中依赖于任务步数的安全与成功权衡 [R]
本文提出了一个用于工具使用型LLM智能体的安全评估框架,引入了“验证者税(Verifier Tax)”的概念——一种依赖于任务步数的安全与任务完成之间的权衡。文章提出了一种双层验证架构,并使用Tau-bench场景展示了验证如何减少不安全成功,但随着任务步数增加也会降低任务完成率。