AnyMo：基于掩码建模的任意模态条件运动生成扩展

Hugging Face Daily Papers 2026/05/28 00:00 论文

human-motion-generation multimodal masked-modeling motion-tokenizer conditional-generation scaling dataset

摘要

本文提出AnyMo，一种统一的多模态人体运动生成框架，结合基于残差FSQ的运动分词器与可扩展的掩码建模Transformer，并利用包含超过5000小时运动数据的OmniHuMo数据集，实现在任意模态组合下的高质量合成。

条件人体运动生成仍是计算机视觉与机器人领域的一项基本挑战。尽管已取得显著进展，现有方法常受限于固定模态配置和特定任务架构，导致跨模态交互以及多模态条件合成的扩展规律尚未得到充分探索。关键瓶颈在于大规模模态对齐运动数据的稀缺，限制了模型在不同控制信号下的泛化能力。为此，我们提出OmniHuMo——一个大规模高质量数据集，包含超过5000小时的运动数据和320万条序列，并配有精确对齐的多模态标注（如文本、语音、音乐和轨迹）。基于OmniHuMo，我们开发了AnyMo，这是一个统一的多模态框架，结合基于残差FSQ的运动分词器与可扩展的掩码建模Transformer，可在任意模态组合下实现高质量运动合成。大量实验表明，AnyMo能够在实现高保真合成的同时，对空间和风格属性提供灵活控制。

查看原文

查看缓存全文

缓存时间: 2026/06/01 07:18

论文页面 - AnyMo: 基于掩码建模的任意模态条件运动生成

来源: https://huggingface.co/papers/2605.29488

摘要

一种统一的多模态人体运动生成框架，结合基于残差 FSQ 的运动分词器与可扩展的掩码建模 Transformer，能够在任意模态组合下实现高质量合成。

条件性人体运动生成仍是计算机视觉与机器人领域的一项核心挑战。尽管已有显著进展，当前方法往往受限于固定的模态配置和任务特定的架构，跨模态交互以及多模态条件合成的缩放定律在很大程度上尚未得到充分探索。一个关键瓶颈在于缺乏大规模、模态对齐的运动数据，这限制了模型在不同控制信号上的泛化能力。在本工作中，我们引入 OmniHuMo，一个大规模、高质量数据集，包含超过 5000 小时的运动数据和 320 万条序列，并附有精确对齐的多模态标注（如文本、语音、音乐和轨迹）。基于 OmniHuMo，我们提出 AnyMo，一种统一的多模态框架，结合了基于残差 FSQ 的运动分词器与可扩展的掩码建模 Transformer，能够在任意模态组合下实现高质量运动合成。大量实验表明，AnyMo 在实现高保真合成的同时，支持对空间和风格属性的灵活控制。

查看 arXiv 页面 (https://arxiv.org/abs/2605.29488)查看 PDF (https://arxiv.org/pdf/2605.29488)项目主页 (https://huggingface.co/datasets/L-yiheng/OmniHuMo)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.29488)

在你的智能体中获取此论文：

hf papers read 2605.29488

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.29488 以从此页面链接。

引用此论文的数据集1

L-yiheng/OmniHuMo 更新于约 17 小时前 • 22 (https://huggingface.co/datasets/L-yiheng/OmniHuMo)

引用此论文的 Space0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.29488 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.net/new-collection) 以从此页面链接。

AnyMo：基于掩码建模的任意模态条件运动生成扩展

论文页面 - AnyMo: 基于掩码建模的任意模态条件运动生成

摘要

引用此论文的模型0

引用此论文的数据集1

L-yiheng/OmniHuMo 更新于约 17 小时前 • 22 (https://huggingface.co/datasets/L-yiheng/OmniHuMo)

引用此论文的 Space0

包含此论文的收藏0

相似文章

AnyMo：几何感知的安装无关的真实环境中人体运动建模

unsloth/MiMo-V2.5-GGUF · Hugging Face

MolmoMotion：语言引导的3D运动预测

MoCapAnything V2: 面向任意骨骼的端到端动作捕捉

MODUS: 仅解码器的任意到任意多模态建模

提交意见反馈