人类通用抓取

Hugging Face Daily Papers 论文

摘要

一种流匹配模型可从RGB-D图像生成多样化的人类抓取动作,实现零样本机器人抓取,性能优于现有方法。该模型在大规模自我中心数据集上训练,在新基准测试中显著超越当前最先进的基线方法。

人类可以轻松抓取物体,而多指机器人远未达到这种通用性。我们认为机器人抓取数据最自然的来源是人类,他们每天拿起数千个物体。我们提出了HUG,一个流匹配模型,能够为立体相机拍摄的单个RGB-D图像中的任何用户指定物体生成多样化的人类抓取动作。使用智能眼镜,我们首先收集了1M-HUGs,这是一个自我中心的人类抓取数据集,涵盖100万帧(27.8小时)和跨越41栋建筑的6,707个物体实例。接下来,为了建模自然人类抓取的分布,我们新颖的流匹配模型融合了RGB和深度观测,输出由手腕平移、手腕旋转和MANO手部姿态参数化的抓取动作。预测的抓取可以重新定向到各种机器人手部,实现在日常场景中的零样本抓取。为了标准化评估,我们建立了一个新的模拟基准HUG-Bench,包含来自五个几何类别和不同尺寸的90个未见物体,并带有度量尺度的3D网格。我们在现实世界中评估了HUG,在HUG-Bench的30个物体测试集上,使用了多个立体相机、机器人实体和家庭环境。HUG在我们具有挑战性的物体集上分别比最先进的抓取基线高出23%和34%。代码、数据、基准、检查点和交互式演示已在我们的网站上发布:https://grasping.io/
查看原文
查看缓存全文

缓存时间: 2026/06/16 15:32

论文页面 - Human Universal Grasping

来源:https://huggingface.co/papers/2606.17054

摘要

一种流匹配模型能够从RGB-D图像中生成多样的人类抓取方式,实现零样本机器人抓取,并在性能上优于现有方法。

人类可以毫不费力地抓取物体,而多指机器人远未达到这种通用性。我们认为,机器人抓取数据最自然的来源是人类——他们每天都会拿起数千个物体。我们提出HUG,这是一种流匹配模型(https://huggingface.co/papers?q=flow-matching%20model),能够为单张RGB-D图像(https://huggingface.co/papers?q=RGB-D%20image)(由立体相机捕获)中用户指定的任意物体生成多样化的人类抓取方式。利用智能眼镜,我们首先收集了1M-HUGs,这是一个自我中心数据集(https://huggingface.co/papers?q=egocentric%20dataset),包含跨越100万帧(27.8小时)、涵盖41栋建筑中6,707个物体实例的人类抓取数据。接下来,为了对自然人类抓取的分布进行建模,我们新颖的流匹配模型(https://huggingface.co/papers?q=flow-matching%20model)融合RGB和深度观测,输出以手腕平移、手腕旋转和MANO手部姿态(https://huggingface.co/papers?q=MANO%20hand%20pose)参数化的抓取。预测的抓取可以重新定位到各种机器手,从而在日常生活场景中实现零样本抓取(https://huggingface.co/papers?q=zero-shot%20grasping)。为了规范评估,我们构建了一个新的模拟基准(https://huggingface.co/papers?q=simulated%20benchmark)——HUG-Bench(https://huggingface.co/papers?q=HUG-Bench),包含来自五个几何类别和多种尺寸的90个未见物体,并配有公制尺度的3D网格。我们在真实世界中对HUG进行评估,测试集为HUG-Bench(https://huggingface.co/papers?q=HUG-Bench)中的30个物体,涉及多种立体相机、机器人实体和家庭环境。HUG在我们具有挑战性的物体集上,相比最先进的抓取基线分别提升了+23%和+34%。代码、数据、基准、检查点和交互式演示已在我们的网站上发布:https://grasping.io/

查看arXiv页面(https://arxiv.org/abs/2606.17054)查看PDF(https://arxiv.org/pdf/2606.17054)项目页面(https://grasping.io/)GitHub0(https://github.com/KevinyWu/hug)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.17054)

在您的智能体中获取此论文:

hf papers read 2606.17054

没有最新的命令行界面?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型1

kevinywu/hug Robotics• 更新于约1小时前(https://huggingface.co/kevinywu/hug)

引用此论文的数据集0

没有数据集引用此论文

在数据集的README.md中引用arxiv.org/abs/2606.17054,以便从本页链接。

引用此论文的Space0

没有Space引用此论文

在Space的README.md中引用arxiv.org/abs/2606.17054,以便从本页链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection),以便从本页链接。

相似文章

域随机化与生成模型在机器人抓取中的应用

OpenAI Blog

# 域随机化与生成模型在机器人抓取中的应用 来源:[https://openai.com/index/domain-randomization-and-generative-models-for-robotic-grasping/](https://openai.com/index/domain-randomization-and-generative-models-for-robotic-grasping/) ## 摘要 基于深度学习的机器人抓取在算法改进和数据可用性增加的推动下取得了重大进展。然而,最先进的模型往往仅在数百或数千个未

EgoPhys:从第一人称视频学习可变形物体的通用物理模型

Hugging Face Daily Papers

EgoPhys 提出一个框架,利用通用先验和紧凑码本从第一人称 RGB 视频构建可变形物理数字孪生,无需针对每个弹簧进行优化即可实现对新物体的零样本泛化。该系统在真实机器人上进行了演示,表明第一人称人类玩耍视频可以作为可变形物体规划的内部世界表征。

HumanNet:将以人为本的视频学习扩展至百万小时规模

Hugging Face Daily Papers

HumanNet 是一个包含百万小时标注视频的大规模以人为本的视频数据集,旨在训练视觉-语言-动作模型。它证明了以第一人称视角拍摄的人类视频可以有效地替代机器人数据,用于具身智能任务。