motion-tokenizer

#motion-tokenizer

AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

Hugging Face Daily Papers ↗ · 2026-05-28 Cached

This paper introduces AnyMo, a unified multimodal framework for human motion generation that combines a Residual FSQ-based motion tokenizer with a scalable masked modeling transformer, along with the OmniHuMo dataset of over 5,000 hours of motion data to enable high-quality synthesis under arbitrary modality combinations.

0 favorites 0 likes

motion-tokenizer

AnyMo: Scaling Any-Modality Conditional Motion Generation with Masked Modeling

Submit Feedback