人类通用抓取

Hugging Face Daily Papers 2026/06/15 00:00 论文

flow-matching human-grasping robotic-grasping zero-shot rgb-d egocentric-dataset mano-hand

摘要

一种流匹配模型可从RGB-D图像生成多样化的人类抓取动作，实现零样本机器人抓取，性能优于现有方法。该模型在大规模自我中心数据集上训练，在新基准测试中显著超越当前最先进的基线方法。

人类可以轻松抓取物体，而多指机器人远未达到这种通用性。我们认为机器人抓取数据最自然的来源是人类，他们每天拿起数千个物体。我们提出了HUG，一个流匹配模型，能够为立体相机拍摄的单个RGB-D图像中的任何用户指定物体生成多样化的人类抓取动作。使用智能眼镜，我们首先收集了1M-HUGs，这是一个自我中心的人类抓取数据集，涵盖100万帧（27.8小时）和跨越41栋建筑的6,707个物体实例。接下来，为了建模自然人类抓取的分布，我们新颖的流匹配模型融合了RGB和深度观测，输出由手腕平移、手腕旋转和MANO手部姿态参数化的抓取动作。预测的抓取可以重新定向到各种机器人手部，实现在日常场景中的零样本抓取。为了标准化评估，我们建立了一个新的模拟基准HUG-Bench，包含来自五个几何类别和不同尺寸的90个未见物体，并带有度量尺度的3D网格。我们在现实世界中评估了HUG，在HUG-Bench的30个物体测试集上，使用了多个立体相机、机器人实体和家庭环境。HUG在我们具有挑战性的物体集上分别比最先进的抓取基线高出23%和34%。代码、数据、基准、检查点和交互式演示已在我们的网站上发布：https://grasping.io/

查看原文

查看缓存全文

缓存时间: 2026/06/16 15:32

论文页面 - Human Universal Grasping

来源：https://huggingface.co/papers/2606.17054

摘要

一种流匹配模型能够从RGB-D图像中生成多样的人类抓取方式，实现零样本机器人抓取，并在性能上优于现有方法。

人类可以毫不费力地抓取物体，而多指机器人远未达到这种通用性。我们认为，机器人抓取数据最自然的来源是人类——他们每天都会拿起数千个物体。我们提出HUG，这是一种流匹配模型（https://huggingface.co/papers?q=flow-matching%20model），能够为单张RGB-D图像（https://huggingface.co/papers?q=RGB-D%20image）（由立体相机捕获）中用户指定的任意物体生成多样化的人类抓取方式。利用智能眼镜，我们首先收集了1M-HUGs，这是一个自我中心数据集（https://huggingface.co/papers?q=egocentric%20dataset），包含跨越100万帧（27.8小时）、涵盖41栋建筑中6,707个物体实例的人类抓取数据。接下来，为了对自然人类抓取的分布进行建模，我们新颖的流匹配模型（https://huggingface.co/papers?q=flow-matching%20model）融合RGB和深度观测，输出以手腕平移、手腕旋转和MANO手部姿态（https://huggingface.co/papers?q=MANO%20hand%20pose）参数化的抓取。预测的抓取可以重新定位到各种机器手，从而在日常生活场景中实现零样本抓取（https://huggingface.co/papers?q=zero-shot%20grasping）。为了规范评估，我们构建了一个新的模拟基准（https://huggingface.co/papers?q=simulated%20benchmark）——HUG-Bench（https://huggingface.co/papers?q=HUG-Bench），包含来自五个几何类别和多种尺寸的90个未见物体，并配有公制尺度的3D网格。我们在真实世界中对HUG进行评估，测试集为HUG-Bench（https://huggingface.co/papers?q=HUG-Bench）中的30个物体，涉及多种立体相机、机器人实体和家庭环境。HUG在我们具有挑战性的物体集上，相比最先进的抓取基线分别提升了+23%和+34%。代码、数据、基准、检查点和交互式演示已在我们的网站上发布：https://grasping.io/

查看arXiv页面（https://arxiv.org/abs/2606.17054）查看PDF（https://arxiv.org/pdf/2606.17054）项目页面（https://grasping.io/）GitHub0（https://github.com/KevinyWu/hug）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.17054）

在您的智能体中获取此论文：

hf papers read 2606.17054

没有最新的命令行界面？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型1

kevinywu/hug Robotics• 更新于约1小时前（https://huggingface.co/kevinywu/hug）

引用此论文的数据集0

没有数据集引用此论文

在数据集的README.md中引用arxiv.org/abs/2606.17054，以便从本页链接。

引用此论文的Space0

没有Space引用此论文

在Space的README.md中引用arxiv.org/abs/2606.17054，以便从本页链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集（https://huggingface.co/new-collection），以便从本页链接。

相似文章

域随机化与生成模型在机器人抓取中的应用

OpenAI Blog

# 域随机化与生成模型在机器人抓取中的应用来源：[https://openai.com/index/domain-randomization-and-generative-models-for-robotic-grasping/](https://openai.com/index/domain-randomization-and-generative-models-for-robotic-grasping/) ## 摘要基于深度学习的机器人抓取在算法改进和数据可用性增加的推动下取得了重大进展。然而，最先进的模型往往仅在数百或数千个未

人类通用抓取

论文页面 - Human Universal Grasping

摘要

引用此论文的模型1

kevinywu/hug Robotics• 更新于约1小时前（https://huggingface.co/kevinywu/hug）

引用此论文的数据集0

引用此论文的Space0

包含此论文的收藏集0

相似文章

域随机化与生成模型在机器人抓取中的应用

GRAIL: 基于3D资产和视频先验的人形机器人运动操控生成

EgoPhys：从第一人称视频学习可变形物体的通用物理模型

EgoForce: 前臂引导的相机空间3D手部姿态——来自单目第一人称相机

HumanNet：将以人为本的视频学习扩展至百万小时规模

提交意见反馈