@HuggingPapers：用于机器人策略学习的几何动作模型，复用几何基础模型作为感知的骨干网络…

X AI KOLs Following 2026/06/16 13:49 论文

robot-learning policy-learning geometric-model foundation-model inference-speed libero

摘要

几何动作模型将几何基础模型用于机器人策略学习，在LIBERO-Plus上达到85.5%的准确率，推理仅需6.9毫秒，比基线模型快55倍。

用于机器人策略学习的几何动作模型复用几何基础模型作为感知、预测和动作的骨干网络。 14亿参数。推理耗时6.9毫秒。在LIBERO-Plus上准确率85.5%。比基线模型快55倍。 https://t.co/wNYlFaghX0

查看原文

查看缓存全文

缓存时间: 2026/06/17 11:52

几何动作模型用于机器人策略学习

将几何基础模型重新用作感知、预测和行动的单一骨干网络。

1.4B 参数。 6.9 毫秒推理。在 LIBERO-Plus 上达到 85.5%。比基线快 55 倍。https://t.co/wNYlFaghX0

相似文章

Hugging Face Daily Papers

Geometric Action Model (GAM) 将预训练的几何基础模型 (GFM) 重新用作语言条件机器人操作的统一骨干，在模拟和真实世界基准测试中，相比现有的基础模型规模基线，实现了更高的准确性、鲁棒性和效率。

Hugging Face Daily Papers

PoLAR 在双曲空间中引入了一种具有几何结构的潜动作表示，将转换范围与模式分离，从而提升机器人策略学习性能。

Hugging Face Daily Papers

LaWAM通过预测紧凑的潜在视觉子目标而非昂贵的视频生成，实现了高效的机器人控制，相比像素空间世界动作模型，成功率可达最先进水平，同时延迟降低高达24倍。

X AI KOLs Following

本文系统地比较了基于重建和基于语义的潜在空间在机器人行动条件潜在扩散世界模型中的应用。研究发现，像V-JEPA 2.1这样的语义编码器在策略相关指标上通常优于重建编码器，从而主张将语义潜在空间作为机器人世界模型的更强基础。

Hugging Face Daily Papers

本文提出了几何基本结构（GPS），这是一种用于机器人操作中关节部件感知的新表示方法，支持高效的VR标注，无需微调即可达到73%的成功率。