autoregressive-model

#autoregressive-model

MotionVLA: Vision-Language-Action Model for Humanoid Motion

Hugging Face Daily Papers ↗ · 2026-06-13 Cached

Proposes MotionVLA, a vision-language-action model for humanoid motion generation using a dual-stream frequency tokenizer that separately encodes pose and physical dynamics, achieving better diversity and consistency.

0 favorites 0 likes

#autoregressive-model

ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations

Hugging Face Daily Papers ↗ · 2026-06-09 Cached

ARM presents a unified autoregressive framework for image understanding, generation, and editing using discrete semantic tokenization and reinforcement learning optimization, showing cross-task synergy.

0 favorites 0 likes

autoregressive-model

MotionVLA: Vision-Language-Action Model for Humanoid Motion

ARM: An AutoRegressive Large Multimodal Model with Unified Discrete Representations

Submit Feedback