标签
Geometric Action Model (GAM) 将预训练的几何基础模型 (GFM) 重新用作语言条件机器人操作的统一骨干,在模拟和真实世界基准测试中,相比现有的基础模型规模基线,实现了更高的准确性、鲁棒性和效率。
SpatialClaw是一个无需训练的框架,它采用代码作为动作接口,使视觉语言模型能够进行灵活、有状态的空间推理,在多种3D/4D空间推理任务上取得了卓越性能。
MolmoAct 2 是由 Allen Institute for Artificial Intelligence 开发的开源机器人模型,能够在执行动作前进行三维空间推理。