AnyMo:基于掩码建模的任意模态条件运动生成扩展

Hugging Face Daily Papers 论文

摘要

本文提出AnyMo,一种统一的多模态人体运动生成框架,结合基于残差FSQ的运动分词器与可扩展的掩码建模Transformer,并利用包含超过5000小时运动数据的OmniHuMo数据集,实现在任意模态组合下的高质量合成。

条件人体运动生成仍是计算机视觉与机器人领域的一项基本挑战。尽管已取得显著进展,现有方法常受限于固定模态配置和特定任务架构,导致跨模态交互以及多模态条件合成的扩展规律尚未得到充分探索。关键瓶颈在于大规模模态对齐运动数据的稀缺,限制了模型在不同控制信号下的泛化能力。为此,我们提出OmniHuMo——一个大规模高质量数据集,包含超过5000小时的运动数据和320万条序列,并配有精确对齐的多模态标注(如文本、语音、音乐和轨迹)。基于OmniHuMo,我们开发了AnyMo,这是一个统一的多模态框架,结合基于残差FSQ的运动分词器与可扩展的掩码建模Transformer,可在任意模态组合下实现高质量运动合成。大量实验表明,AnyMo能够在实现高保真合成的同时,对空间和风格属性提供灵活控制。
查看原文
查看缓存全文

缓存时间: 2026/06/01 07:18

论文页面 - AnyMo: 基于掩码建模的任意模态条件运动生成

来源: https://huggingface.co/papers/2605.29488

摘要

一种统一的多模态人体运动生成框架,结合基于残差 FSQ 的运动分词器与可扩展的掩码建模 Transformer,能够在任意模态组合下实现高质量合成。

条件性人体运动生成仍是计算机视觉与机器人领域的一项核心挑战。尽管已有显著进展,当前方法往往受限于固定的模态配置和任务特定的架构,跨模态交互以及多模态条件合成的缩放定律在很大程度上尚未得到充分探索。一个关键瓶颈在于缺乏大规模、模态对齐的运动数据,这限制了模型在不同控制信号上的泛化能力。在本工作中,我们引入 OmniHuMo,一个大规模、高质量数据集,包含超过 5000 小时的运动数据和 320 万条序列,并附有精确对齐的多模态标注(如文本、语音、音乐和轨迹)。基于 OmniHuMo,我们提出 AnyMo,一种统一的多模态框架,结合了基于残差 FSQ 的运动分词器与可扩展的掩码建模 Transformer,能够在任意模态组合下实现高质量运动合成。大量实验表明,AnyMo 在实现高保真合成的同时,支持对空间和风格属性的灵活控制。

查看 arXiv 页面 (https://arxiv.org/abs/2605.29488)查看 PDF (https://arxiv.org/pdf/2605.29488)项目主页 (https://huggingface.co/datasets/L-yiheng/OmniHuMo)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.29488)

在你的智能体中获取此论文:

hf papers read 2605.29488

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.29488 以从此页面链接。

引用此论文的数据集1

L-yiheng/OmniHuMo 更新于约 17 小时前 • 22 (https://huggingface.co/datasets/L-yiheng/OmniHuMo)

引用此论文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.29488 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.net/new-collection) 以从此页面链接。

相似文章

unsloth/MiMo-V2.5-GGUF · Hugging Face

Reddit r/LocalLLaMA

MiMo-V2.5 是一款原生全模态 AI 模型,具备强大的智能体(agentic)能力,在统一稀疏混合专家(MoE)架构下支持文本、图像、视频和音频的理解。

LongMoE:基于轨迹感知的混合专家模型的纵向多模态学习

arXiv cs.LG

LongMoE提出了一个统一框架,同时解决多模态临床学习中的模态缺失和纵向动态问题,利用上下文感知插补、注意力令牌化、轨迹感知编码和稀疏混合专家路由。在ADNI、OASIS-3和MIMIC-IV上的实验表明,在缺失模态情况下鲁棒性得到提升,同时在完整模态设置下仍具有竞争力。