何时信任想象:世界行动模型的自适应动作执行
摘要
本文介绍了 FFDC,一种用于世界行动模型的轻量级验证器,它通过检查预测观察与实际观察之间的一致性,实现了自适应动作块大小,从而提高了机器人操作的效率和鲁棒性。
查看缓存全文
缓存时间: 2026/05/08 06:58
Paper page - 何时信任想象力:世界动作模型的可自适应动作执行
Source: https://huggingface.co/papers/2605.06222 Published on May 7
·
Submitted byhttps://huggingface.co/linjhong
Lin (https://huggingface.co/linjhong)on May 8
Abstract
WorldActionModels(WAMs) 最近作为一种有前景的机器人操控范式而兴起,通过联合预测未来的视觉观测和未来动作。然而,当前的 WAMs 通常在每次模型推理后执行固定数量的预测动作,使得机器人无法判断所想象的未来是否与实际物理执行过程保持一致。在本工作中,我们将自适应 WAM 执行公式化为一个未来-现实验证问题:当 WAM 预测的未来保持可靠时,机器人应执行更长的动作序列;当现实偏离想象时,应更早重新规划。为此,我们提出了 Future Forward Dynamics Causal Attention (FFDC),这是一种轻量级验证器,通过对预测的未来动作、预测的视觉动力学、真实观测以及语言指令进行联合推理,以估计剩余的动作执行过程是否仍可信赖。FFDC 使得动作块大小能够根据预测与观测的一致性自适应调整,这在保持长视界执行效率的同时,恢复了在富含接触或困难阶段中的响应能力。我们还引入了 Mixture-of-Horizon Training 来改善长视界轨迹覆盖范围以支持自适应执行。在 RoboTwin 基准和现实世界中的实验表明,我们的方法实现了稳健性与效率之间的强大权衡:在 RoboTwin 上,它将 WAM 前向传递减少了 69.10%,执行时间减少了 34.02%,同时相比短块基线成功率提高了 2.54%;在现实世界实验中,成功率提高了 35%。
View arXiv page (https://arxiv.org/abs/2605.06222)View PDF (https://arxiv.org/pdf/2605.06222)Add to collection (https://huggingface.co/login?next=%2Fpapers%2F2605.06222)
Get this paper in your agent:
hf papers read 2605\.06222
Don’t have the latest CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
Models citing this paper0
No model linking this paper
Cite arxiv.org/abs/2605.06222 in a model README.md to link it from this page.
Datasets citing this paper0
No dataset linking this paper
Cite arxiv.org/abs/2605.06222 in a dataset README.md to link it from this page.
Spaces citing this paper0
No Space linking this paper
Cite arxiv.org/abs/2605.06222 in a Space README.md to link it from this page.
Collections including this paper0
No Collection including this paper
Add this paper to acollection (https://huggingface.co/new-collection)to link it from this page.
相似文章
MolmoAct2:面向真实场景部署的动作推理模型
Allen AI 发布了 MolmoAct2,这是一款专为真实场景机器人部署设计的开放权重视觉-语言-动作模型,具备新数据集、开放动作分词器以及自适应推理以降低延迟等特性。
何时信任工具?工具集成数学推理的自适应工具信任校准
本文介绍了自适应工具信任校准(ATTC)框架,该框架通过使工具集成推理模型能够根据代码置信度得分自适应地决定是否相信或忽视工具结果,从而改进了这些模型。该方法解决了模型错误地忽视正确工具输出的"工具被忽视"问题,在多个模型和数据集上实现了4.1%-7.5%的性能提升。
AgentV-RL:用智能体验证器扩展奖励建模
AgentV-RL引入了智能体验证器框架,通过具有工具增强的前向和后向智能体进行双向验证来增强奖励建模,相比最先进的ORM实现了25.2%的性能提升。该方法通过将多轮深思熟虑过程与强化学习相结合,解决了验证器在复杂推理任务中的误差传播和基础性不足等问题。
LeWorldModel:从像素出发的稳定端到端联合嵌入预测架构
LeWorldModel 提出了一种稳定的端到端联合嵌入预测架构(JEPA),可直接从像素进行训练,仅需极少超参数,并具有可证明的反坍塌保证。与基础模型相比,它在规划速度上实现了显著提升,同时在机器人操作任务中保持了具有竞争力的性能。
Agent-World:面向演进式通用智能体的现实世界环境合成扩展
# 论文页面 - Agent-World: Scaling Real-World Environment Synthesis for Evolving General Agent Intelligence 来源:[https://huggingface.co/papers/2604.18292](https://huggingface.co/papers/2604.18292) 发布于 4 月 20 日 · 提交者[https://huggingface.co/dongguanting](https://huggingface.co/dongguanting) [](https://huggingface.co/dongguanting) [KABI](https://huggingface.co/donggua