MotionVLA:用于人形机器人运动的视觉-语言-动作模型

Hugging Face Daily Papers 论文

摘要

提出MotionVLA,一种用于人形运动生成的视觉-语言-动作模型,采用双流频率分词器分别编码姿态和物理动态,实现了更高的多样性和一致性。

从场景图像和文本生成逼真的人形运动涉及低频姿态语义和高频物理动态。然而,许多现有方法使用单一共享码本对运动进行分词,迫使异构运动信号进入相同的量化空间。我们对人体运动数据的频域分析揭示了单码本量化与运动统计之间的明显不匹配:五个DCT系数捕获了93%的关节位置能量,但仅捕获了37%的关节速度能量,这可能导致量化偏向姿态统计而低估高频速度分量。第二个挑战在于调整标准自回归模型以有效建模运动序列中的高频物理信号。为此,我们提出了DSFT,一种双流频率分词器,它将运动分为基础流和物理流,并分别通过DCT截断和BPE进行独立压缩。此外,我们提出了MotionVLA,一种基于Qwen3.5的模型,将基础令牌和物理令牌排列成统一序列,其中物理令牌在基础令牌之后预测。在HumanML3D和MBench上的实验表明,尽管使用轻量级2B骨干网络,MotionVLA在HumanML3D上将多样性与真实数据的差距缩小了50%以上,并在MBench上将运动条件一致性提升了3.8%,支持频率感知的双流解耦作为自回归运动生成的有效公式。代码:https://github.com/AIGeeksGroup/MotionVLA。网站:https://aigeeksgroup.github.io/MotionVLA。
查看原文
查看缓存全文

缓存时间: 2026/06/17 03:35

论文页面 - MotionVLA:用于人形机器人运动的视觉-语言-动作模型

来源:https://huggingface.co/papers/2606.15142

摘要

本文提出了一种双流频率分词器与自回归模型,通过分别编码姿态和物理动态信息来改进人形机器人运动生成,与单码本方法相比,实现了更好的多样性与一致性。

从场景图像和文本生成逼真的人形运动既涉及低频姿态语义,也涉及高频物理动态。然而,许多现有方法使用单个共享码本对运动进行分词,迫使异构的运动信号进入同一量化空间。我们对人体运动数据的频域分析揭示了单码本量化与运动统计量之间存在明显的不匹配:五个DCT系数捕获了93%的关节位置能量,却仅捕获37%的关节速度能量,这可能导致量化偏向于姿态统计量,并低估高频速度分量。第二个挑战在于如何使标准自回归模型有效建模运动序列中的高频物理信号。为此,我们提出了DSFT——一种双流频率分词器,它将运动分离为基础流和物理流,并分别通过DCT截断和BPE独立压缩。此外,我们推出了MotionVLA——一个基于Qwen3.5的模型,它将Base标记和物理标记排列成统一序列,其中物理标记在Base标记之后预测。在HumanML3D和MBench上的实验表明,尽管使用了轻量级的2B骨干网络,MotionVLA在HumanML3D上将多样性差距缩小至真实数据的50%以上,并在MBench上将运动-条件一致性提升了3.8%,验证了频率感知双流解耦作为自回归运动生成的有效范式。代码:https://github.com/AIGeeksGroup/MotionVLA。项目网站:https://aigeeksgroup.github.io/MotionVLA/。

查看arXiv页面(https://arxiv.org/abs/2606.15142)查看PDF(https://arxiv.org/pdf/2606.15142)项目页面(https://aigeeksgroup.github.io/MotionVLA/)GitHub3(https://github.com/AIGeeksGroup/MotionVLA)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.15142)

在你的智能体中获取该论文:

hf papers read 2606.15142

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接到该论文

在模型的README.md中引用arxiv.org/abs/2606.15142即可从本页链接。

引用此论文的数据集0

没有数据集链接到该论文

在数据集的README.md中引用arxiv.org/abs/2606.15142即可从本页链接。

引用此论文的Spaces0

没有Space链接到该论文

在Space的README.md中引用arxiv.org/abs/2606.15142即可从本页链接。

包含此论文的收藏集0

没有收藏集包含该论文

将本论文添加到一个收藏集中即可从本页链接。

相似文章

TBD-VLA: 时序块扩散视觉语言动作模型

Hugging Face Daily Papers

TBD-VLA 提出了一种离散的视觉-语言-动作框架,结合了块扩散与自回归生成,以实现高效的时序动作建模和更快的推理速度,在仿真和真实世界的操作任务中显著优于之前的 VLA 方法。

LabVLA:在科学实验室中落地视觉-语言-动作模型

Hugging Face Daily Papers

LabVLA是一种面向科学实验室自动化的视觉-语言-动作模型,采用两阶段训练方法,结合动作令牌预训练与流匹配。通过在LabUtopia基准上利用模拟数据弥合家庭演示与实验室特定任务之间的差距,它实现了最先进的成功率。

IntentVLA: 针对混叠机器人操作的短期意图建模

Hugging Face Daily Papers

IntentVLA 是一种历史条件视觉-语言-动作框架,通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性,解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench,这是一个用于评估此类方法的模糊感知基准。