discrete-tokens

#discrete-tokens

TBD-VLA: Temporal Block Diffusion Vision Language Action Model

Hugging Face Daily Papers ↗ · 5d ago Cached

TBD-VLA introduces a discrete vision-language-action framework that combines block diffusion with autoregressive generation to achieve efficient temporal action modeling and faster inference, significantly outperforming prior VLA approaches in simulation and real-world manipulation tasks.

0 favorites 0 likes

#discrete-tokens

Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning

Hugging Face Daily Papers ↗ · 6d ago Cached

Introduces Discrete-WAM, a unified discrete latent vision-action world policy that enables compositional causal reasoning and counterfactual reasoning in autonomous driving through aligned discrete tokens and a shared discrete diffusion framework.

0 favorites 0 likes

#discrete-tokens

Hierarchical Codec Diffusion for Video-to-Speech Generation

Hugging Face Daily Papers ↗ · 2026-04-17 Cached

HiCoDiT is a novel Hierarchical Codec Diffusion Transformer for video-to-speech generation that leverages the hierarchical structure of RVQ-based codec discrete speech tokens, using coarse-to-fine conditioning with dual-scale normalization to achieve strong audio-visual alignment.

0 favorites 0 likes

discrete-tokens

TBD-VLA: Temporal Block Diffusion Vision Language Action Model

Discrete-WAM: Unified Discrete Vision-Action Token Editing for World-Policy Learning

Hierarchical Codec Diffusion for Video-to-Speech Generation

Submit Feedback