世界-动作交互模型的DAWN

Hugging Face Daily Papers 论文

摘要

本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。

合理的场景演化取决于所考虑的驾驶行为,而良好的驾驶行为又取决于场景可能如何演化。现有的世界动作模型(WAMs)大多忽略了这种互惠关系,将世界预测和动作生成视为孤立的并行分支或僵化的先预测后规划管道。我们将这一观点形式化为世界-动作交互模型(WAIMs),并在自动驾驶中通过DAWN(去噪动作与世界交互模型)进行实例化,DAWN是一个简单而强大的潜在生成基线。DAWN在一个紧凑的语义潜在空间中运行,将世界预测器与基于世界条件的动作去噪器耦合:预测的世界假设条件化动作去噪,而去噪后的动作假设被反馈以更新世界预测,从而在推理过程中两者被递归地细化。DAWN不是完全消除测试时的世界演化,也不是在像素空间中展开完整的未来,而是执行一个简短的显式潜在展开,足以支持复杂交互场景中的长时域轨迹生成。实验表明,DAWN在多个自动驾驶基准测试中实现了强大的规划性能和良好的安全相关结果。更广泛地说,我们的结果表明,交互式世界-动作生成是通向真正可操作世界模型的一条原则性路径。
查看原文
查看缓存全文

缓存时间: 2026/05/14 04:17

论文页面 - 世界-动作交互模型的曙光

来源:https://huggingface.co/papers/2605.11550

摘要

世界-动作交互模型(World-Action Interactive Models, WAIMs)通过递归细化机制,联合建模场景演化与动作,实现了自动驾驶场景中有效的长时域规划。

一个合理的场景演化取决于所考虑的驾驶操作,而一个好的操作又依赖于场景可能的演化方式。现有的世界动作模型(World Action Models, WAMs)在很大程度上忽略了这种互惠关系,将世界预测和动作生成视为孤立的并行分支或僵化的“先预测后规划”流水线。我们将这种视角形式化为世界-动作交互模型(World-Action Interactive Models, WAIMs),并在自动驾驶中通过DAWN(Denoising Actions and World iNteractive model,去噪动作与世界交互模型)这一简单而强大的潜在生成基线进行了实例化。DAWN在一个紧凑的语义潜在空间中运行,并将一个世界预测器(World Predictor)与一个世界条件动作去噪器(World-Conditioned Action Denoiser)耦合:预测的世界假设为动作去噪提供条件,而去噪后的动作假设则被反馈用于更新世界预测,从而在推理过程中两者都得到递归细化。DAWN并未完全消除测试时的世界演化,也未在像素空间中展开完整的未来,而是执行一次短程显式潜在展开,足以支撑复杂交互场景中的长时域轨迹生成。实验表明,DAWN在多个自动驾驶基准测试中实现了强大的规划性能和良好的安全相关结果。更广泛地说,我们的结果表明,交互式世界-动作生成是迈向真正可操作世界模型的一条原则性路径。

查看 arXiv 页面 (https://arxiv.org/abs/2605.11550)查看 PDF (https://arxiv.org/pdf/2605.11550)添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.11550)

在你的智能体中获取这篇论文:

hf papers read 2605.11550

没有最新的 CLI 终端?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

暂无模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.11550 以从此页面链接。

引用此论文的数据集0

暂无数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.11550 以从此页面链接。

引用此论文的 Spaces0

暂无 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.11550 以从此页面链接。

包含此论文的收藏集0

暂无收藏集包含此论文

请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

世界行动模型:具身智能的下一个前沿

Hugging Face Daily Papers

本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。

AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由

Hugging Face Daily Papers

AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。