人类通用抓取
摘要
一种流匹配模型可从RGB-D图像生成多样化的人类抓取动作,实现零样本机器人抓取,性能优于现有方法。该模型在大规模自我中心数据集上训练,在新基准测试中显著超越当前最先进的基线方法。
查看缓存全文
缓存时间: 2026/06/16 15:32
论文页面 - Human Universal Grasping
来源:https://huggingface.co/papers/2606.17054
摘要
一种流匹配模型能够从RGB-D图像中生成多样的人类抓取方式,实现零样本机器人抓取,并在性能上优于现有方法。
人类可以毫不费力地抓取物体,而多指机器人远未达到这种通用性。我们认为,机器人抓取数据最自然的来源是人类——他们每天都会拿起数千个物体。我们提出HUG,这是一种流匹配模型(https://huggingface.co/papers?q=flow-matching%20model),能够为单张RGB-D图像(https://huggingface.co/papers?q=RGB-D%20image)(由立体相机捕获)中用户指定的任意物体生成多样化的人类抓取方式。利用智能眼镜,我们首先收集了1M-HUGs,这是一个自我中心数据集(https://huggingface.co/papers?q=egocentric%20dataset),包含跨越100万帧(27.8小时)、涵盖41栋建筑中6,707个物体实例的人类抓取数据。接下来,为了对自然人类抓取的分布进行建模,我们新颖的流匹配模型(https://huggingface.co/papers?q=flow-matching%20model)融合RGB和深度观测,输出以手腕平移、手腕旋转和MANO手部姿态(https://huggingface.co/papers?q=MANO%20hand%20pose)参数化的抓取。预测的抓取可以重新定位到各种机器手,从而在日常生活场景中实现零样本抓取(https://huggingface.co/papers?q=zero-shot%20grasping)。为了规范评估,我们构建了一个新的模拟基准(https://huggingface.co/papers?q=simulated%20benchmark)——HUG-Bench(https://huggingface.co/papers?q=HUG-Bench),包含来自五个几何类别和多种尺寸的90个未见物体,并配有公制尺度的3D网格。我们在真实世界中对HUG进行评估,测试集为HUG-Bench(https://huggingface.co/papers?q=HUG-Bench)中的30个物体,涉及多种立体相机、机器人实体和家庭环境。HUG在我们具有挑战性的物体集上,相比最先进的抓取基线分别提升了+23%和+34%。代码、数据、基准、检查点和交互式演示已在我们的网站上发布:https://grasping.io/
查看arXiv页面(https://arxiv.org/abs/2606.17054)查看PDF(https://arxiv.org/pdf/2606.17054)项目页面(https://grasping.io/)GitHub0(https://github.com/KevinyWu/hug)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.17054)
在您的智能体中获取此论文:
hf papers read 2606.17054
没有最新的命令行界面?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型1
kevinywu/hug Robotics• 更新于约1小时前(https://huggingface.co/kevinywu/hug)
引用此论文的数据集0
没有数据集引用此论文
在数据集的README.md中引用arxiv.org/abs/2606.17054,以便从本页链接。
引用此论文的Space0
没有Space引用此论文
在Space的README.md中引用arxiv.org/abs/2606.17054,以便从本页链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集(https://huggingface.co/new-collection),以便从本页链接。
相似文章
域随机化与生成模型在机器人抓取中的应用
# 域随机化与生成模型在机器人抓取中的应用 来源:[https://openai.com/index/domain-randomization-and-generative-models-for-robotic-grasping/](https://openai.com/index/domain-randomization-and-generative-models-for-robotic-grasping/) ## 摘要 基于深度学习的机器人抓取在算法改进和数据可用性增加的推动下取得了重大进展。然而,最先进的模型往往仅在数百或数千个未
GRAIL: 基于3D资产和视频先验的人形机器人运动操控生成
GRAIL利用3D资产和视频基础模型生成多样的人形机器人操作与移动数据,实现了有效的仿真到现实迁移,在真实世界中取得了高成功率。
EgoPhys:从第一人称视频学习可变形物体的通用物理模型
EgoPhys 提出一个框架,利用通用先验和紧凑码本从第一人称 RGB 视频构建可变形物理数字孪生,无需针对每个弹簧进行优化即可实现对新物体的零样本泛化。该系统在真实机器人上进行了演示,表明第一人称人类玩耍视频可以作为可变形物体规划的内部世界表征。
EgoForce: 前臂引导的相机空间3D手部姿态——来自单目第一人称相机
EgoForce是一个单目3D手部重建框架,使用统一网络,包含可微分前臂表示、手臂-手部变换器和射线空间求解器,能够在不同相机模型下恢复绝对手部姿态和位置,在多个第一人称基准测试中达到了最先进的精度。
HumanNet:将以人为本的视频学习扩展至百万小时规模
HumanNet 是一个包含百万小时标注视频的大规模以人为本的视频数据集,旨在训练视觉-语言-动作模型。它证明了以第一人称视角拍摄的人类视频可以有效地替代机器人数据,用于具身智能任务。