MotionVLA:用于人形机器人运动的视觉-语言-动作模型
摘要
提出MotionVLA,一种用于人形运动生成的视觉-语言-动作模型,采用双流频率分词器分别编码姿态和物理动态,实现了更高的多样性和一致性。
查看缓存全文
缓存时间: 2026/06/17 03:35
论文页面 - MotionVLA:用于人形机器人运动的视觉-语言-动作模型
来源:https://huggingface.co/papers/2606.15142
摘要
本文提出了一种双流频率分词器与自回归模型,通过分别编码姿态和物理动态信息来改进人形机器人运动生成,与单码本方法相比,实现了更好的多样性与一致性。
从场景图像和文本生成逼真的人形运动既涉及低频姿态语义,也涉及高频物理动态。然而,许多现有方法使用单个共享码本对运动进行分词,迫使异构的运动信号进入同一量化空间。我们对人体运动数据的频域分析揭示了单码本量化与运动统计量之间存在明显的不匹配:五个DCT系数捕获了93%的关节位置能量,却仅捕获37%的关节速度能量,这可能导致量化偏向于姿态统计量,并低估高频速度分量。第二个挑战在于如何使标准自回归模型有效建模运动序列中的高频物理信号。为此,我们提出了DSFT——一种双流频率分词器,它将运动分离为基础流和物理流,并分别通过DCT截断和BPE独立压缩。此外,我们推出了MotionVLA——一个基于Qwen3.5的模型,它将Base标记和物理标记排列成统一序列,其中物理标记在Base标记之后预测。在HumanML3D和MBench上的实验表明,尽管使用了轻量级的2B骨干网络,MotionVLA在HumanML3D上将多样性差距缩小至真实数据的50%以上,并在MBench上将运动-条件一致性提升了3.8%,验证了频率感知双流解耦作为自回归运动生成的有效范式。代码:https://github.com/AIGeeksGroup/MotionVLA。项目网站:https://aigeeksgroup.github.io/MotionVLA/。
查看arXiv页面(https://arxiv.org/abs/2606.15142)查看PDF(https://arxiv.org/pdf/2606.15142)项目页面(https://aigeeksgroup.github.io/MotionVLA/)GitHub3(https://github.com/AIGeeksGroup/MotionVLA)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.15142)
在你的智能体中获取该论文:
hf papers read 2606.15142
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接到该论文
在模型的README.md中引用arxiv.org/abs/2606.15142即可从本页链接。
引用此论文的数据集0
没有数据集链接到该论文
在数据集的README.md中引用arxiv.org/abs/2606.15142即可从本页链接。
引用此论文的Spaces0
没有Space链接到该论文
在Space的README.md中引用arxiv.org/abs/2606.15142即可从本页链接。
包含此论文的收藏集0
没有收藏集包含该论文
将本论文添加到一个收藏集中即可从本页链接。
相似文章
TBD-VLA: 时序块扩散视觉语言动作模型
TBD-VLA 提出了一种离散的视觉-语言-动作框架,结合了块扩散与自回归生成,以实现高效的时序动作建模和更快的推理速度,在仿真和真实世界的操作任务中显著优于之前的 VLA 方法。
AffordanceVLA: 一种通过可供性感知理解赋能动作生成的视觉-语言-动作模型
AffordanceVLA引入了一个统一框架,利用结构化可供性预测作为中间表示,结合视觉-语言模型和混合Transformer架构,以改进机器人操作中的感知-动作映射。
LabVLA:在科学实验室中落地视觉-语言-动作模型
LabVLA是一种面向科学实验室自动化的视觉-语言-动作模型,采用两阶段训练方法,结合动作令牌预训练与流匹配。通过在LabUtopia基准上利用模拟数据弥合家庭演示与实验室特定任务之间的差距,它实现了最先进的成功率。
AR-VLA: 面向视觉-语言-动作模型的真正自回归动作专家
提出了AR-VLA,一个自回归动作专家,它通过长期记忆生成连续的、具有上下文感知能力的机器人策略训练的动作序列,相比反应式VLA模型,提高了轨迹平滑度和任务成功率。
IntentVLA: 针对混叠机器人操作的短期意图建模
IntentVLA 是一种历史条件视觉-语言-动作框架,通过从视觉观察中编码短期意图来提高机器人模仿学习的稳定性,解决了部分可观察性和模糊观察带来的挑战。它还引入了 AliasBench,这是一个用于评估此类方法的模糊感知基准。