Geometric Action Model 用于机器人策略学习
摘要
Geometric Action Model (GAM) 将预训练的几何基础模型 (GFM) 重新用作语言条件机器人操作的统一骨干,在模拟和真实世界基准测试中,相比现有的基础模型规模基线,实现了更高的准确性、鲁棒性和效率。
查看缓存全文
缓存时间: 2026/06/16 11:32
论文页面 - 几何动作模型(Geometric Action Model)用于机器人策略学习
来源:https://huggingface.co/papers/2606.17046
摘要
一种几何动作模型利用预训练的几何基础模型,使基于语言指令的操作策略在三维物理环境中获得更高的准确性、鲁棒性和效率。
通用型机器人策略必须遵循用户指令,同时推理物体、相机和机器人动作如何在三维物理世界(https://huggingface.co/papers?q=3D%20physical%20world)中交互。最近的视觉-语言-动作模型(https://huggingface.co/papers?q=vision-language-action%20models)(VLA)和视频世界-动作模型(https://huggingface.co/papers?q=video%20world-action%20models)(WAM)从大规模基础模型中继承了强大的语义或时间先验,但它们仍然主要在二维图像帧或二维导出的潜在空间上运行,隐含了对接触丰富的操作(https://huggingface.co/papers?q=contact-rich%20manipulation)所需的三维几何信息。我们提出了几何动作模型(GAM),一种基于语言指令的操作策略(https://huggingface.co/papers?q=language-conditioned%20manipulation%20policy),它直接将预训练的几何基础模型(GFM)重新用作感知、时间预测和动作解码(https://huggingface.co/papers?q=action%20decoding)的共享基座。GAM 在中间层将 GFM 分割:浅层用作观测编码器,在分割层插入一个因果未来预测器(https://huggingface.co/papers?q=causal%20future%20predictor),用于预测以语言、本体感觉和动作历史为条件的未来潜在标记(https://huggingface.co/papers?q=latent%20tokens)。然后,预测的未来标记通过剩余的 GFM 块进行特征传播和解码,使得单个骨干网络能够同时生成未来几何和动作。这种设计通过最小的架构修改,为 GFM 配备了基于语言条件的时间世界建模(https://huggingface.co/papers?q=temporal%20world%20modeling),同时保留了其丰富的几何先验。在广泛的仿真和真实机器人操作基准测试中,GAM 比当前基础模型规模基线的准确性更高、鲁棒性更强、速度更快且更轻量。
查看 arXiv 页面 (https://arxiv.org/abs/2606.17046)
查看 PDF (https://arxiv.org/pdf/2606.17046)
项目页面 (https://cvlab-kaist.github.io/Geometric-Action-Model/)
GitHub27 (https://github.com/cvlab-kaist/Geometric-Action-Model)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.17046)
在你的智能体中获取此论文:
hf papers read 2606.17046
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.17046 以从此页面链接。
引用该论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.17046 以从此页面链接。
引用该论文的 Spaces0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.17046 以从此页面链接。
包含该论文的集合1
相似文章
LaWAM:面向高效动力学感知机器人策略的潜在世界动作模型
LaWAM通过预测紧凑的潜在视觉子目标而非昂贵的视频生成,实现了高效的机器人控制,相比像素空间世界动作模型,成功率可达最先进水平,同时延迟降低高达24倍。
重新审视机器人操作中的关节部件感知
本文提出了几何基本结构(GPS),这是一种用于机器人操作中关节部件感知的新表示方法,支持高效的VR标注,无需微调即可达到73%的成功率。
从动作引导中学习智能体策略
本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。
机器人学习中的世界模型:全面综述
本综述全面回顾了机器人学习中世界模型的文献,涵盖其在策略学习、规划和模拟中的作用。文章突出了预测建模在具身智能体中的关键范式、基准测试及未来发展方向。
τ_0-WM: 用于机器人操作的统一视频-动作世界模型
τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。