Geometric Action Model 用于机器人策略学习

Hugging Face Daily Papers 论文

摘要

Geometric Action Model (GAM) 将预训练的几何基础模型 (GFM) 重新用作语言条件机器人操作的统一骨干,在模拟和真实世界基准测试中,相比现有的基础模型规模基线,实现了更高的准确性、鲁棒性和效率。

通用机器人策略必须遵循用户指令,同时推理物体、相机和机器人动作如何在三维物理世界中交互。最近的视觉-语言-动作模型(VLA)和视频世界-动作模型(WAM)从大规模基础模型继承了强大的语义或时间先验,但它们仍然主要基于二维图像帧或二维导出的潜在空间进行操作,使得接触丰富的操作所需的3D几何信息隐含其中。我们提出几何动作模型(GAM),这是一种语言条件的操作策略,直接将预训练的几何基础模型(GFM)重新用作感知、时间预测和动作解码的共享基板。GAM在中间层对GFM进行分割:浅层作为观察编码器,在分割层插入的因果未来预测器根据语言、本体感觉和动作历史预测未来的潜在令牌。然后,预测的未来令牌通过剩余的GFM块进行特征传播和解码,使得单个骨干能够同时生成未来几何信息和动作。这种设计通过最小的架构修改为GFM配备了语言条件的时间世界建模能力,同时保留了其丰富的几何先验。在一系列模拟和真实机器人操作基准测试中,GAM比当前基础模型规模基线更准确、更鲁棒、更快、更轻量。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:32

论文页面 - 几何动作模型(Geometric Action Model)用于机器人策略学习

来源:https://huggingface.co/papers/2606.17046

摘要

一种几何动作模型利用预训练的几何基础模型,使基于语言指令的操作策略在三维物理环境中获得更高的准确性、鲁棒性和效率。

通用型机器人策略必须遵循用户指令,同时推理物体、相机和机器人动作如何在三维物理世界(https://huggingface.co/papers?q=3D%20physical%20world)中交互。最近的视觉-语言-动作模型(https://huggingface.co/papers?q=vision-language-action%20models)(VLA)和视频世界-动作模型(https://huggingface.co/papers?q=video%20world-action%20models)(WAM)从大规模基础模型中继承了强大的语义或时间先验,但它们仍然主要在二维图像帧或二维导出的潜在空间上运行,隐含了对接触丰富的操作(https://huggingface.co/papers?q=contact-rich%20manipulation)所需的三维几何信息。我们提出了几何动作模型(GAM),一种基于语言指令的操作策略(https://huggingface.co/papers?q=language-conditioned%20manipulation%20policy),它直接将预训练的几何基础模型(GFM)重新用作感知、时间预测和动作解码(https://huggingface.co/papers?q=action%20decoding)的共享基座。GAM 在中间层将 GFM 分割:浅层用作观测编码器,在分割层插入一个因果未来预测器(https://huggingface.co/papers?q=causal%20future%20predictor),用于预测以语言、本体感觉和动作历史为条件的未来潜在标记(https://huggingface.co/papers?q=latent%20tokens)。然后,预测的未来标记通过剩余的 GFM 块进行特征传播和解码,使得单个骨干网络能够同时生成未来几何和动作。这种设计通过最小的架构修改,为 GFM 配备了基于语言条件的时间世界建模(https://huggingface.co/papers?q=temporal%20world%20modeling),同时保留了其丰富的几何先验。在广泛的仿真和真实机器人操作基准测试中,GAM 比当前基础模型规模基线的准确性更高、鲁棒性更强、速度更快且更轻量。

查看 arXiv 页面 (https://arxiv.org/abs/2606.17046)
查看 PDF (https://arxiv.org/pdf/2606.17046)
项目页面 (https://cvlab-kaist.github.io/Geometric-Action-Model/)
GitHub27 (https://github.com/cvlab-kaist/Geometric-Action-Model)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.17046)

在你的智能体中获取此论文:

hf papers read 2606.17046

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.17046 以从此页面链接。

引用该论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.17046 以从此页面链接。

引用该论文的 Spaces0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.17046 以从此页面链接。

包含该论文的集合1

相似文章

重新审视机器人操作中的关节部件感知

Hugging Face Daily Papers

本文提出了几何基本结构(GPS),这是一种用于机器人操作中关节部件感知的新表示方法,支持高效的VR标注,无需微调即可达到73%的成功率。

从动作引导中学习智能体策略

arXiv cs.CL

本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。

机器人学习中的世界模型:全面综述

Hugging Face Daily Papers

本综述全面回顾了机器人学习中世界模型的文献,涵盖其在策略学习、规划和模拟中的作用。文章突出了预测建模在具身智能体中的关键范式、基准测试及未来发展方向。

τ_0-WM: 用于机器人操作的统一视频-动作世界模型

Hugging Face Daily Papers

τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。