Geometric Action Model 用于机器人策略学习

Hugging Face Daily Papers 2026/06/15 00:00 论文

摘要

Geometric Action Model (GAM) 将预训练的几何基础模型 (GFM) 重新用作语言条件机器人操作的统一骨干，在模拟和真实世界基准测试中，相比现有的基础模型规模基线，实现了更高的准确性、鲁棒性和效率。

通用机器人策略必须遵循用户指令，同时推理物体、相机和机器人动作如何在三维物理世界中交互。最近的视觉-语言-动作模型（VLA）和视频世界-动作模型（WAM）从大规模基础模型继承了强大的语义或时间先验，但它们仍然主要基于二维图像帧或二维导出的潜在空间进行操作，使得接触丰富的操作所需的3D几何信息隐含其中。我们提出几何动作模型（GAM），这是一种语言条件的操作策略，直接将预训练的几何基础模型（GFM）重新用作感知、时间预测和动作解码的共享基板。GAM在中间层对GFM进行分割：浅层作为观察编码器，在分割层插入的因果未来预测器根据语言、本体感觉和动作历史预测未来的潜在令牌。然后，预测的未来令牌通过剩余的GFM块进行特征传播和解码，使得单个骨干能够同时生成未来几何信息和动作。这种设计通过最小的架构修改为GFM配备了语言条件的时间世界建模能力，同时保留了其丰富的几何先验。在一系列模拟和真实机器人操作基准测试中，GAM比当前基础模型规模基线更准确、更鲁棒、更快、更轻量。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:32

论文页面 - 几何动作模型（Geometric Action Model）用于机器人策略学习

来源：https://huggingface.co/papers/2606.17046

摘要

一种几何动作模型利用预训练的几何基础模型，使基于语言指令的操作策略在三维物理环境中获得更高的准确性、鲁棒性和效率。

通用型机器人策略必须遵循用户指令，同时推理物体、相机和机器人动作如何在三维物理世界（https://huggingface.co/papers?q=3D%20physical%20world）中交互。最近的视觉-语言-动作模型（https://huggingface.co/papers?q=vision-language-action%20models）（VLA）和视频世界-动作模型（https://huggingface.co/papers?q=video%20world-action%20models）（WAM）从大规模基础模型中继承了强大的语义或时间先验，但它们仍然主要在二维图像帧或二维导出的潜在空间上运行，隐含了对接触丰富的操作（https://huggingface.co/papers?q=contact-rich%20manipulation）所需的三维几何信息。我们提出了几何动作模型（GAM），一种基于语言指令的操作策略（https://huggingface.co/papers?q=language-conditioned%20manipulation%20policy），它直接将预训练的几何基础模型（GFM）重新用作感知、时间预测和动作解码（https://huggingface.co/papers?q=action%20decoding）的共享基座。GAM 在中间层将 GFM 分割：浅层用作观测编码器，在分割层插入一个因果未来预测器（https://huggingface.co/papers?q=causal%20future%20predictor），用于预测以语言、本体感觉和动作历史为条件的未来潜在标记（https://huggingface.co/papers?q=latent%20tokens）。然后，预测的未来标记通过剩余的 GFM 块进行特征传播和解码，使得单个骨干网络能够同时生成未来几何和动作。这种设计通过最小的架构修改，为 GFM 配备了基于语言条件的时间世界建模（https://huggingface.co/papers?q=temporal%20world%20modeling），同时保留了其丰富的几何先验。在广泛的仿真和真实机器人操作基准测试中，GAM 比当前基础模型规模基线的准确性更高、鲁棒性更强、速度更快且更轻量。

查看 arXiv 页面 (https://arxiv.org/abs/2606.17046)
查看 PDF (https://arxiv.org/pdf/2606.17046)
项目页面 (https://cvlab-kaist.github.io/Geometric-Action-Model/)
GitHub27 (https://github.com/cvlab-kaist/Geometric-Action-Model)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.17046)

在你的智能体中获取此论文：

hf papers read 2606.17046

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.17046 以从此页面链接。

引用该论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.17046 以从此页面链接。

引用该论文的 Spaces0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.17046 以从此页面链接。

Geometric Action Model 用于机器人策略学习

论文页面 - 几何动作模型（Geometric Action Model）用于机器人策略学习

摘要

引用该论文的模型0

引用该论文的数据集0

引用该论文的 Spaces0

包含该论文的集合1

相似文章

LaWAM：面向高效动力学感知机器人策略的潜在世界动作模型

重新审视机器人操作中的关节部件感知

从动作引导中学习智能体策略

机器人学习中的世界模型：全面综述

τ_0-WM: 用于机器人操作的统一视频-动作世界模型

提交意见反馈