Discrete-WAM：面向世界-策略学习的统一离散视觉-动作令牌编辑

Hugging Face Daily Papers 2026/06/04 00:00 论文

摘要

介绍了Discrete-WAM，一种统一的离散潜在视觉-动作世界策略，通过对齐的离散令牌和共享的离散扩散框架，在自动驾驶中实现组合因果推理和反事实推理。

自动驾驶需要推理自车动作如何塑造周围世界的演变。然而，大多数端到端方法依赖于直接的状态到动作映射，捕捉相关性而没有显式建模动作条件动力学。相反，连续潜在世界模型通常缺乏用于跨反事实未来进行因果推理的组合结构。我们提出了Discrete-WAM，一种统一的潜在视觉-动作世界策略，将未来视觉状态和自车动作表示为对齐的离散令牌，从而实现跨替代未来的组合因果推理。基于这种统一的离散对齐，Discrete-WAM建立了一个共享的离散扩散框架，具有统一的生成任务，共同构建世界建模、世界-动作策略和层次决策策略，支持跨多种驾驶场景的组合泛化。在大规模自动驾驶基准上的实验表明，Discrete-WAM在支持可控生成和反事实推理的同时取得了竞争性能，为更可靠的决策提供了一条原则性路径。

查看原文

查看缓存全文

缓存时间: 2026/06/05 06:07

论文页面 - Discrete-WAM：面向世界-策略学习的统一离散视觉-动作标记编辑

来源：https://huggingface.co/papers/2606.05645

作者：

摘要

Discrete-WAM 提出了一种统一的离散潜变量视觉-动作世界策略，通过对齐的离散标记和共享的离散扩散框架，实现了自动驾驶中的组合因果推理和反事实推理。

自动驾驶 (https://huggingface.co/papers?q=Autonomous%20driving) 需要推理自我行为如何塑造周围世界的发展。然而，大多数端到端方法依赖于直接的状态到动作映射，捕获关联性但没有显式建模动作条件动力学。相反，连续潜变量世界模型 (https://huggingface.co/papers?q=world%20models) 通常缺乏用于跨反事实未来进行因果推理 (https://huggingface.co/papers?q=causal%20reasoning) 的组合结构。我们提出了 Discrete-WAM，一种统一的潜变量视觉-动作世界策略，将未来视觉状态和自我行为表示为对齐的离散标记 (https://huggingface.co/papers?q=discrete%20tokens)，实现了跨替代未来的组合因果推理 (https://huggingface.co/papers?q=causal%20reasoning)。基于这种统一的离散对齐，Discrete-WAM 建立了一个具有统一生成任务的共享离散扩散框架 (https://huggingface.co/papers?q=discrete%20diffusion%20framework)，共同构建了世界建模、世界-动作策略和分层决策支持策略，支持跨多种驾驶场景的组合泛化 (https://huggingface.co/papers?q=compositional%20generalization)。在大规模自动驾驶基准上的实验表明，Discrete-WAM 在支持可控生成和反事实推理 (https://huggingface.co/papers?q=counterfactual%20reasoning) 的同时实现了有竞争力的性能，为更可靠的决策提供了原则性路径。

查看 arXiv 页面 (https://arxiv.org/abs/2606.05645)查看 PDF (https://arxiv.org/pdf/2606.05645)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.05645)

在您的代理中获取此论文：

hf papers read 2606\.05645

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.05645 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.05645 以从此页面链接。

引用此论文的 Spaces 0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.05645 以从此页面链接。

包含此论文的收藏 0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

Discrete-WAM：面向世界-策略学习的统一离散视觉-动作令牌编辑

论文页面 - Discrete-WAM：面向世界-策略学习的统一离散视觉-动作标记编辑

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces 0

包含此论文的收藏 0

相似文章

Light-WAM：基于状态融合动作解码的高效世界动作模型

DWM: 在潜在世界模型中分离世界效应与动作

RepWAM：基于表征视觉-动作分词器的世界动作建模

世界-动作交互模型的DAWN

LaWAM：面向高效动力学感知机器人策略的潜在世界动作模型

提交意见反馈