dual-stream

#dual-stream

MotionVLA: Vision-Language-Action Model for Humanoid Motion

Hugging Face Daily Papers ↗ · 2026-06-13 Cached

Proposes MotionVLA, a vision-language-action model for humanoid motion generation using a dual-stream frequency tokenizer that separately encodes pose and physical dynamics, achieving better diversity and consistency.

0 favorites 0 likes

dual-stream

MotionVLA: Vision-Language-Action Model for Humanoid Motion

Submit Feedback