AnyMo:基于掩码建模的任意模态条件运动生成扩展
摘要
本文提出AnyMo,一种统一的多模态人体运动生成框架,结合基于残差FSQ的运动分词器与可扩展的掩码建模Transformer,并利用包含超过5000小时运动数据的OmniHuMo数据集,实现在任意模态组合下的高质量合成。
查看缓存全文
缓存时间: 2026/06/01 07:18
论文页面 - AnyMo: 基于掩码建模的任意模态条件运动生成
来源: https://huggingface.co/papers/2605.29488
摘要
一种统一的多模态人体运动生成框架,结合基于残差 FSQ 的运动分词器与可扩展的掩码建模 Transformer,能够在任意模态组合下实现高质量合成。
条件性人体运动生成仍是计算机视觉与机器人领域的一项核心挑战。尽管已有显著进展,当前方法往往受限于固定的模态配置和任务特定的架构,跨模态交互以及多模态条件合成的缩放定律在很大程度上尚未得到充分探索。一个关键瓶颈在于缺乏大规模、模态对齐的运动数据,这限制了模型在不同控制信号上的泛化能力。在本工作中,我们引入 OmniHuMo,一个大规模、高质量数据集,包含超过 5000 小时的运动数据和 320 万条序列,并附有精确对齐的多模态标注(如文本、语音、音乐和轨迹)。基于 OmniHuMo,我们提出 AnyMo,一种统一的多模态框架,结合了基于残差 FSQ 的运动分词器与可扩展的掩码建模 Transformer,能够在任意模态组合下实现高质量运动合成。大量实验表明,AnyMo 在实现高保真合成的同时,支持对空间和风格属性的灵活控制。
查看 arXiv 页面 (https://arxiv.org/abs/2605.29488)查看 PDF (https://arxiv.org/pdf/2605.29488)项目主页 (https://huggingface.co/datasets/L-yiheng/OmniHuMo)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.29488)
在你的智能体中获取此论文:
hf papers read 2605.29488
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.29488 以从此页面链接。
引用此论文的数据集1
L-yiheng/OmniHuMo 更新于约 17 小时前 • 22 (https://huggingface.co/datasets/L-yiheng/OmniHuMo)
引用此论文的 Space0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.29488 以从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏 (https://huggingface.net/new-collection) 以从此页面链接。
相似文章
AnyMo:几何感知的安装无关的真实环境中人体运动建模
AnyMo是一个几何感知的框架,用于安装无关的人体运动建模,它利用基于物理的IMU模拟和图编码,在零样本活动识别、跨模态检索和运动描述等多个数据集上实现了显著改进。
unsloth/MiMo-V2.5-GGUF · Hugging Face
MiMo-V2.5 是一款原生全模态 AI 模型,具备强大的智能体(agentic)能力,在统一稀疏混合专家(MoE)架构下支持文本、图像、视频和音频的理解。
MoCapAnything V2: 面向任意骨骼的端到端动作捕捉
MoCapAnything V2 提出了一种面向任意骨骼单目视频动作捕捉的完全端到端框架,通过联合优化视频到姿态以及姿态到旋转的预测,解决旋转歧义性问题。
OmniHumanoid: 流式跨实体视频生成与无需配对自适应
OmniHumanoid是一个框架,通过分解运动迁移和实体特定自适应,利用非配对数据和分支隔离注意力减少干扰,实现可扩展的跨实体视频生成。
LongMoE:基于轨迹感知的混合专家模型的纵向多模态学习
LongMoE提出了一个统一框架,同时解决多模态临床学习中的模态缺失和纵向动态问题,利用上下文感知插补、注意力令牌化、轨迹感知编码和稀疏混合专家路由。在ADNI、OASIS-3和MIMIC-IV上的实验表明,在缺失模态情况下鲁棒性得到提升,同时在完整模态设置下仍具有竞争力。