Discrete-WAM:面向世界-策略学习的统一离散视觉-动作令牌编辑

Hugging Face Daily Papers 论文

摘要

介绍了Discrete-WAM,一种统一的离散潜在视觉-动作世界策略,通过对齐的离散令牌和共享的离散扩散框架,在自动驾驶中实现组合因果推理和反事实推理。

自动驾驶需要推理自车动作如何塑造周围世界的演变。然而,大多数端到端方法依赖于直接的状态到动作映射,捕捉相关性而没有显式建模动作条件动力学。相反,连续潜在世界模型通常缺乏用于跨反事实未来进行因果推理的组合结构。我们提出了Discrete-WAM,一种统一的潜在视觉-动作世界策略,将未来视觉状态和自车动作表示为对齐的离散令牌,从而实现跨替代未来的组合因果推理。基于这种统一的离散对齐,Discrete-WAM建立了一个共享的离散扩散框架,具有统一的生成任务,共同构建世界建模、世界-动作策略和层次决策策略,支持跨多种驾驶场景的组合泛化。在大规模自动驾驶基准上的实验表明,Discrete-WAM在支持可控生成和反事实推理的同时取得了竞争性能,为更可靠的决策提供了一条原则性路径。
查看原文
查看缓存全文

缓存时间: 2026/06/05 06:07

论文页面 - Discrete-WAM:面向世界-策略学习的统一离散视觉-动作标记编辑

来源:https://huggingface.co/papers/2606.05645

作者:

,

,

,

,

,

,

,

,

,

,

,

摘要

Discrete-WAM 提出了一种统一的离散潜变量视觉-动作世界策略,通过对齐的离散标记和共享的离散扩散框架,实现了自动驾驶中的组合因果推理和反事实推理。

自动驾驶 (https://huggingface.co/papers?q=Autonomous%20driving) 需要推理自我行为如何塑造周围世界的发展。然而,大多数端到端方法依赖于直接的状态到动作映射,捕获关联性但没有显式建模动作条件动力学。相反,连续潜变量世界模型 (https://huggingface.co/papers?q=world%20models) 通常缺乏用于跨反事实未来进行因果推理 (https://huggingface.co/papers?q=causal%20reasoning) 的组合结构。我们提出了 Discrete-WAM,一种统一的潜变量视觉-动作世界策略,将未来视觉状态和自我行为表示为对齐的离散标记 (https://huggingface.co/papers?q=discrete%20tokens),实现了跨替代未来的组合因果推理 (https://huggingface.co/papers?q=causal%20reasoning)。基于这种统一的离散对齐,Discrete-WAM 建立了一个具有统一生成任务的共享离散扩散框架 (https://huggingface.co/papers?q=discrete%20diffusion%20framework),共同构建了世界建模、世界-动作策略和分层决策支持策略,支持跨多种驾驶场景的组合泛化 (https://huggingface.co/papers?q=compositional%20generalization)。在大规模自动驾驶基准上的实验表明,Discrete-WAM 在支持可控生成和反事实推理 (https://huggingface.co/papers?q=counterfactual%20reasoning) 的同时实现了有竞争力的性能,为更可靠的决策提供了原则性路径。

查看 arXiv 页面 (https://arxiv.org/abs/2606.05645)查看 PDF (https://arxiv.org/pdf/2606.05645)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05645)

在您的代理中获取此论文:

hf papers read 2606\.05645

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.05645 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.05645 以从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.05645 以从此页面链接。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

世界-动作交互模型的DAWN

Hugging Face Daily Papers

本文介绍了DAWN,一种用于世界-动作交互模型(WAIMs)的潜在生成基线,通过递归细化联合建模场景演化与动作生成,在自动驾驶场景中实现了强大的长时域规划性能。

世界行动模型:具身智能的下一个前沿

Hugging Face Daily Papers

本综述论文介绍了世界行动模型(World Action Models,WAMs),这是一种将预测性状态建模与行动生成相结合的具身智能统一框架。该文提供了现有方法的分类体系,分析了数据生态系统,并概述了这一新兴范式的评估协议。