标签
一种流匹配模型可从RGB-D图像生成多样化的人类抓取动作,实现零样本机器人抓取,性能优于现有方法。该模型在大规模自我中心数据集上训练,在新基准测试中显著超越当前最先进的基线方法。
本文提出了几何基本结构(GPS),这是一种用于机器人操作中关节部件感知的新表示方法,支持高效的VR标注,无需微调即可达到73%的成功率。
AFUN 提出了一种可供性基础模型,该模型从 RGB-D 观测和语言描述中预测功能掩码和 3D 运动曲线,从而能够在多种环境中实现泛化的机器人操作。该模型在多个基准测试上优于基线方法,并且无需微调即可部署到实际任务中。
本文提出了COVER,一种无需训练的方法,用于将3D资产转换为具有完整场景覆盖和低冗余度的稀疏全景RGB-D位姿数据,并介绍了包含36,373个来自室内和室外场景的精选帧的CM-EVS数据集。