世界-动作交互模型的DAWN
摘要
本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。
查看缓存全文
缓存时间: 2026/05/14 04:17
论文页面 - 世界-动作交互模型的曙光
来源:https://huggingface.co/papers/2605.11550
摘要
世界-动作交互模型(World-Action Interactive Models, WAIMs)通过递归细化机制,联合建模场景演化与动作,实现了自动驾驶场景中有效的长时域规划。
一个合理的场景演化取决于所考虑的驾驶操作,而一个好的操作又依赖于场景可能的演化方式。现有的世界动作模型(World Action Models, WAMs)在很大程度上忽略了这种互惠关系,将世界预测和动作生成视为孤立的并行分支或僵化的“先预测后规划”流水线。我们将这种视角形式化为世界-动作交互模型(World-Action Interactive Models, WAIMs),并在自动驾驶中通过DAWN(Denoising Actions and World iNteractive model,去噪动作与世界交互模型)这一简单而强大的潜在生成基线进行了实例化。DAWN在一个紧凑的语义潜在空间中运行,并将一个世界预测器(World Predictor)与一个世界条件动作去噪器(World-Conditioned Action Denoiser)耦合:预测的世界假设为动作去噪提供条件,而去噪后的动作假设则被反馈用于更新世界预测,从而在推理过程中两者都得到递归细化。DAWN并未完全消除测试时的世界演化,也未在像素空间中展开完整的未来,而是执行一次短程显式潜在展开,足以支撑复杂交互场景中的长时域轨迹生成。实验表明,DAWN在多个自动驾驶基准测试中实现了强大的规划性能和良好的安全相关结果。更广泛地说,我们的结果表明,交互式世界-动作生成是迈向真正可操作世界模型的一条原则性路径。
查看 arXiv 页面 (https://arxiv.org/abs/2605.11550)查看 PDF (https://arxiv.org/pdf/2605.11550)添加到收藏夹 (https://huggingface.co/login?next=%2Fpapers%2F2605.11550)
在你的智能体中获取这篇论文:
hf papers read 2605.11550
没有最新的 CLI 终端?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
暂无模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.11550 以从此页面链接。
引用此论文的数据集0
暂无数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.11550 以从此页面链接。
引用此论文的 Spaces0
暂无 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.11550 以从此页面链接。
包含此论文的收藏集0
暂无收藏集包含此论文
请将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
世界行动模型:具身智能的下一个前沿
本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。
AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由
AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。
Discrete-WAM:面向世界-策略学习的统一离散视觉-动作令牌编辑
介绍了Discrete-WAM,一种统一的离散潜在视觉-动作世界策略,通过对齐的离散令牌和共享的离散扩散框架,在自动驾驶中实现组合因果推理和反事实推理。
World-Language-Action模型:统一世界建模、语言推理与动作合成
本文介绍了World-Language-Action(WLA)模型,这是一种具身基础模型,能够从文本、图像和机器人状态中联合预测文本子任务、子目标图像和机器人动作,在模拟和真实环境中实现了最先进的多任务与长周期学习能力。
Light-WAM:基于状态融合动作解码的高效世界动作模型
Light-WAM是一种轻量级世界动作模型,用于高效机器人操作。它采用紧凑视频骨干网络和降采样潜在空间进行未来视频监督,在保持低推理延迟的同时实现了高性能。