@HuggingPapers:用于机器人策略学习的几何动作模型,复用几何基础模型作为感知的骨干网络…
摘要
几何动作模型将几何基础模型用于机器人策略学习,在LIBERO-Plus上达到85.5%的准确率,推理仅需6.9毫秒,比基线模型快55倍。
用于机器人策略学习的几何动作模型
复用几何基础模型作为感知、预测和动作的骨干网络。
14亿参数。
推理耗时6.9毫秒。
在LIBERO-Plus上准确率85.5%。
比基线模型快55倍。 https://t.co/wNYlFaghX0
查看缓存全文
缓存时间: 2026/06/17 11:52
几何动作模型用于机器人策略学习
将几何基础模型重新用作感知、预测和行动的单一骨干网络。
1.4B 参数。 6.9 毫秒推理。 在 LIBERO-Plus 上达到 85.5%。 比基线快 55 倍。https://t.co/wNYlFaghX0
相似文章
Geometric Action Model 用于机器人策略学习
Geometric Action Model (GAM) 将预训练的几何基础模型 (GFM) 重新用作语言条件机器人操作的统一骨干,在模拟和真实世界基准测试中,相比现有的基础模型规模基线,实现了更高的准确性、鲁棒性和效率。
PoLAR: 因子化潜动作中的范围与模式以用于机器人策略学习
PoLAR 在双曲空间中引入了一种具有几何结构的潜动作表示,将转换范围与模式分离,从而提升机器人策略学习性能。
LaWAM:面向高效动力学感知机器人策略的潜在世界动作模型
LaWAM通过预测紧凑的潜在视觉子目标而非昂贵的视频生成,实现了高效的机器人控制,相比像素空间世界动作模型,成功率可达最先进水平,同时延迟降低高达24倍。
@artemZholus:谢谢!在第二篇论文(https://arxiv.org/abs/2605.06388)中,我们采用了您(和RAE)的方案,效果不错。
本文系统地比较了基于重建和基于语义的潜在空间在机器人行动条件潜在扩散世界模型中的应用。研究发现,像V-JEPA 2.1这样的语义编码器在策略相关指标上通常优于重建编码器,从而主张将语义潜在空间作为机器人世界模型的更强基础。
重新审视机器人操作中的关节部件感知
本文提出了几何基本结构(GPS),这是一种用于机器人操作中关节部件感知的新表示方法,支持高效的VR标注,无需微调即可达到73%的成功率。