Discrete-WAM:面向世界-策略学习的统一离散视觉-动作令牌编辑
摘要
介绍了Discrete-WAM,一种统一的离散潜在视觉-动作世界策略,通过对齐的离散令牌和共享的离散扩散框架,在自动驾驶中实现组合因果推理和反事实推理。
查看缓存全文
缓存时间: 2026/06/05 06:07
论文页面 - Discrete-WAM:面向世界-策略学习的统一离散视觉-动作标记编辑
来源:https://huggingface.co/papers/2606.05645
作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
Discrete-WAM 提出了一种统一的离散潜变量视觉-动作世界策略,通过对齐的离散标记和共享的离散扩散框架,实现了自动驾驶中的组合因果推理和反事实推理。
自动驾驶 (https://huggingface.co/papers?q=Autonomous%20driving) 需要推理自我行为如何塑造周围世界的发展。然而,大多数端到端方法依赖于直接的状态到动作映射,捕获关联性但没有显式建模动作条件动力学。相反,连续潜变量世界模型 (https://huggingface.co/papers?q=world%20models) 通常缺乏用于跨反事实未来进行因果推理 (https://huggingface.co/papers?q=causal%20reasoning) 的组合结构。我们提出了 Discrete-WAM,一种统一的潜变量视觉-动作世界策略,将未来视觉状态和自我行为表示为对齐的离散标记 (https://huggingface.co/papers?q=discrete%20tokens),实现了跨替代未来的组合因果推理 (https://huggingface.co/papers?q=causal%20reasoning)。基于这种统一的离散对齐,Discrete-WAM 建立了一个具有统一生成任务的共享离散扩散框架 (https://huggingface.co/papers?q=discrete%20diffusion%20framework),共同构建了世界建模、世界-动作策略和分层决策支持策略,支持跨多种驾驶场景的组合泛化 (https://huggingface.co/papers?q=compositional%20generalization)。在大规模自动驾驶基准上的实验表明,Discrete-WAM 在支持可控生成和反事实推理 (https://huggingface.co/papers?q=counterfactual%20reasoning) 的同时实现了有竞争力的性能,为更可靠的决策提供了原则性路径。
查看 arXiv 页面 (https://arxiv.org/abs/2606.05645)查看 PDF (https://arxiv.org/pdf/2606.05645)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05645)
在您的代理中获取此论文:
hf papers read 2606\.05645
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.05645 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.05645 以从此页面链接。
引用此论文的 Spaces 0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.05645 以从此页面链接。
包含此论文的收藏 0
没有收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
世界-动作交互模型的DAWN
本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。
Flash-WAM: 面向世界行动模型的模态感知蒸馏
Flash-WAM提出了一种面向世界行动模型的模态感知蒸馏方法,通过将扩散压缩为每个模态单步推理,实现了实时推理,速度提升23倍。
世界行动模型:具身智能的下一个前沿
本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。
World-Language-Action模型:统一世界建模、语言推理与动作合成
本文介绍了World-Language-Action(WLA)模型,这是一种具身基础模型,能够从文本、图像和机器人状态中联合预测文本子任务、子目标图像和机器人动作,在模拟和真实环境中实现了最先进的多任务与长周期学习能力。
用于LLM智能体离线策略评估的自回归扩散世界模型
提出了Adwm,一种用于LLM智能体离线策略评估的自回归扩散世界模型,能够从预先收集的轨迹中实现可靠的价值估计,无需在线交互。