Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning

Hugging Face Daily Papers 06/04/26, 12:00 AM Papers

Summary

Introduces Discrete-WAM, a unified discrete latent vision-action world policy that enables compositional causal reasoning and counterfactual reasoning in autonomous driving through aligned discrete tokens and a shared discrete diffusion framework.

Autonomous driving requires reasoning about how ego actions shape the evolution of the surrounding world. However, most end-to-end methods rely on direct state-to-action mappings, capturing correlations without explicitly modeling action-conditioned dynamics. Conversely, continuous-latent world models often lack compositional structure for causal reasoning across counterfactual futures. We introduce Discrete-WAM, a unified latent vision-action world policy that represents future visual states and ego actions as aligned discrete tokens, enabling compositional causal reasoning across alternative futures. Built upon this unified discrete alignment, Discrete-WAM establishes a shared discrete diffusion framework with unified generative tasks, jointly formulating world modeling, world-action policy, and hierarchical decision-enabled policy, supporting compositional generalization across diverse driving scenarios. Experiments on large-scale autonomous-driving benchmarks show that Discrete-WAM achieves competitive performance while supporting controllable generation and counterfactual reasoning, offering a principled path toward more reliable decision-making.

Original Article

View Cached Full Text

Cached at: 06/05/26, 06:07 AM

Paper page - Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning

Source: https://huggingface.co/papers/2606.05645 Authors:

Abstract

Discrete-WAM introduces a unified discrete latent vision-action world policy that enables compositional causal reasoning and counterfactual reasoning in autonomous driving through aligned discrete tokens and a shared discrete diffusion framework.

Autonomous drivingrequires reasoning about how ego actions shape the evolution of the surrounding world. However, most end-to-end methods rely on direct state-to-action mappings, capturing correlations without explicitly modeling action-conditioned dynamics. Conversely, continuous-latentworld modelsoften lack compositional structure forcausal reasoningacross counterfactual futures. We introduce Discrete-WAM, a unified latent vision-action world policy that represents future visual states and ego actions as aligneddiscrete tokens, enabling compositionalcausal reasoningacross alternative futures. Built upon this unified discrete alignment, Discrete-WAM establishes a shareddiscrete diffusion frameworkwith unified generative tasks, jointly formulating world modeling, world-action policy, and hierarchical decision-enabled policy, supportingcompositional generalizationacross diverse driving scenarios. Experiments on large-scale autonomous-driving benchmarks show that Discrete-WAM achieves competitive performance while supporting controllable generation andcounterfactual reasoning, offering a principled path toward more reliable decision-making.

View arXiv page View PDF Add to collection

Get this paper in your agent:

hf papers read 2606\.05645

Don’t have the latest CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

Models citing this paper0

No model linking this paper

Cite arxiv.org/abs/2606.05645 in a model README.md to link it from this page.

Datasets citing this paper0

No dataset linking this paper

Cite arxiv.org/abs/2606.05645 in a dataset README.md to link it from this page.

Spaces citing this paper0

No Space linking this paper

Cite arxiv.org/abs/2606.05645 in a Space README.md to link it from this page.

Collections including this paper0

No Collection including this paper

Add this paper to acollectionto link it from this page.

Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning

Paper page - Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning

Abstract

Models citing this paper0

Datasets citing this paper0

Spaces citing this paper0

Collections including this paper0

Similar Articles

The DAWN of World-Action Interactive Models

Flash-WAM: Modality-Aware Distillation for World Action Models

AHA-WAM:Asynchronous Horizon-Adaptive World-Action Modeling with Observation-Guided Context Routing

World Action Models: The Next Frontier in Embodied AI

World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis

Submit Feedback

Similar Articles

The DAWN of World-Action Interactive Models

Flash-WAM: Modality-Aware Distillation for World Action Models

AHA-WAM:Asynchronous Horizon-Adaptive World-Action Modeling with Observation-Guided Context Routing

World Action Models: The Next Frontier in Embodied AI

World-Language-Action Model for Unified World Modeling, Language Reasoning, and Action Synthesis