何时信任想象:世界行动模型的自适应动作执行

Hugging Face Daily Papers 论文

摘要

本文介绍了 FFDC,一种用于世界行动模型的轻量级验证器,它通过检查预测观察与实际观察之间的一致性,实现了自适应动作块大小,从而提高了机器人操作的效率和鲁棒性。

世界行动模型(WAMs)最近已成为机器人操作中一种很有前景的范式,能够联合预测未来的视觉观察结果和未来的动作。然而,当前的 WAMs 通常会在每次模型推理后执行固定数量的预测动作,这使得机器人无法判断其“想象”中的未来是否与实际的物理执行过程保持一致。在本研究中,我们将自适应 WAM 执行表述为一种“未来-现实”验证问题:当 WAM 预测的未来依然可靠时,机器人应执行更长时间的动作;当现实与想象出现偏差时,则应更早地进行重新规划。为此,我们提出了未来前向动力学因果注意力(FFDC),这是一种轻量级验证器,它能够联合推理预测的未来动作、预测的视觉动态、真实观察结果以及语言指令,以评估剩余的动作执行过程是否仍可信赖。FFDC 将自适应动作块大小作为预测-观察一致性的自然结果,在保留长周期执行效率的同时,恢复了在接触频繁或困难阶段的操作响应能力。此外,我们引入了混合视域训练(Mixture-of-Horizon Training),以改善长视域轨迹覆盖,从而支持自适应执行。在 RoboTwin 基准测试和真实世界中的实验表明,我们的方法实现了强大的鲁棒性与效率权衡:在 RoboTwin 上,它将 WAM 的前向传播次数减少了 69.10%,执行时间缩短了 34.02%,同时将成功率提高了 2.54%(相较于短块基线);在真实世界实验中,成功率提升了 35%。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 06:58

Paper page - 何时信任想象力:世界动作模型的可自适应动作执行

Source: https://huggingface.co/papers/2605.06222 Published on May 7

·

Submitted byhttps://huggingface.co/linjhong

Lin (https://huggingface.co/linjhong)on May 8

Abstract

WorldActionModels(WAMs) 最近作为一种有前景的机器人操控范式而兴起,通过联合预测未来的视觉观测和未来动作。然而,当前的 WAMs 通常在每次模型推理后执行固定数量的预测动作,使得机器人无法判断所想象的未来是否与实际物理执行过程保持一致。在本工作中,我们将自适应 WAM 执行公式化为一个未来-现实验证问题:当 WAM 预测的未来保持可靠时,机器人应执行更长的动作序列;当现实偏离想象时,应更早重新规划。为此,我们提出了 Future Forward Dynamics Causal Attention (FFDC),这是一种轻量级验证器,通过对预测的未来动作、预测的视觉动力学、真实观测以及语言指令进行联合推理,以估计剩余的动作执行过程是否仍可信赖。FFDC 使得动作块大小能够根据预测与观测的一致性自适应调整,这在保持长视界执行效率的同时,恢复了在富含接触或困难阶段中的响应能力。我们还引入了 Mixture-of-Horizon Training 来改善长视界轨迹覆盖范围以支持自适应执行。在 RoboTwin 基准和现实世界中的实验表明,我们的方法实现了稳健性与效率之间的强大权衡:在 RoboTwin 上,它将 WAM 前向传递减少了 69.10%,执行时间减少了 34.02%,同时相比短块基线成功率提高了 2.54%;在现实世界实验中,成功率提高了 35%。

View arXiv page (https://arxiv.org/abs/2605.06222)View PDF (https://arxiv.org/pdf/2605.06222)Add to collection (https://huggingface.co/login?next=%2Fpapers%2F2605.06222)

Get this paper in your agent:

hf papers read 2605\.06222

Don’t have the latest CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

Models citing this paper0

No model linking this paper

Cite arxiv.org/abs/2605.06222 in a model README.md to link it from this page.

Datasets citing this paper0

No dataset linking this paper

Cite arxiv.org/abs/2605.06222 in a dataset README.md to link it from this page.

Spaces citing this paper0

No Space linking this paper

Cite arxiv.org/abs/2605.06222 in a Space README.md to link it from this page.

Collections including this paper0

No Collection including this paper

Add this paper to acollection (https://huggingface.co/new-collection)to link it from this page.

相似文章

MolmoAct2:面向真实场景部署的动作推理模型

Papers with Code Trending

Allen AI 发布了 MolmoAct2,这是一款专为真实场景机器人部署设计的开放权重视觉-语言-动作模型,具备新数据集、开放动作分词器以及自适应推理以降低延迟等特性。

何时信任工具?工具集成数学推理的自适应工具信任校准

arXiv cs.CL

本文介绍了自适应工具信任校准(ATTC)框架,该框架通过使工具集成推理模型能够根据代码置信度得分自适应地决定是否相信或忽视工具结果,从而改进了这些模型。该方法解决了模型错误地忽视正确工具输出的"工具被忽视"问题,在多个模型和数据集上实现了4.1%-7.5%的性能提升。

AgentV-RL:用智能体验证器扩展奖励建模

arXiv cs.CL

AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。

LeWorldModel:从像素出发的稳定端到端联合嵌入预测架构

Papers with Code Trending

LeWorldModel 提出了一种稳定的端到端联合嵌入预测架构(JEPA),可直接从像素进行训练,仅需极少超参数,并具有可证明的反坍塌保证。与基础模型相比,它在规划速度上实现了显著提升,同时在机器人操作任务中保持了具有竞争力的性能。

Agent-World:面向演进式通用智能体的现实世界环境合成扩展

Hugging Face Daily Papers

# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [![](https://cdn-avatars.huggingface.co/v1/production/uploads/61cd4b833dd34ba1985e0753/BfHfrwotoMESpXZOHiIe4.png)](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua