ACE-Ego-0: 统一第一人称人类与机器人数据用于VLA预训练

Hugging Face Daily Papers 论文

摘要

ACE-EGO-0是一个统一的视觉-语言-动作预训练框架,利用第一人称人类视频和机器人轨迹,通过可靠性感知训练目标,在具身AI基准上达到了最先进水平。

视觉-语言-动作(VLA)模型受益于大规模多样化的具身数据,但扩展机器人轨迹收集成本高且劳动密集。最近的进展表明,大规模第一人称人类视频在预训练中提供了互补的真实世界监督。然而,由于动作空间、具身结构、时间动态和监督质量的差异,联合训练人类和机器人数据仍然具有挑战性。我们引入了ACE-EGO-0,一个统一的VLA预训练框架,联合利用异构数据源。为了从第一人称人类视频中提取大规模预训练监督,我们构建了一个可扩展的第一人称视频到动作管道,将原始人类视频转换为机器人格式的伪动作轨迹。为了使这些标签与机器人演示可比,ACE-EGO-0使用基于相机空间动作、形态条件和时间对齐动作分块的统一动作表示。为了稳健地利用来自第一人称人类视频的噪声伪动作监督,我们制定了一个可靠性感知训练目标,并带有一个人类辅助损失,将监督集中在可靠信号上。我们在4.53K小时的机器人和模拟数据上实例化ACE-EGO-0,以及1.48K小时的伪动作标注的第一人称人类数据。实验表明,在可靠性感知加权下纳入大规模人类监督持续改善统一的联合预训练和监督微调。ACE-EGO-0在RoboCasa GR1 TableTop和RoboTwin 2.0上达到了最先进水平,同时展示了对真实世界双臂操作的强大迁移能力。
查看原文
查看缓存全文

缓存时间: 2026/06/17 03:35

论文页面 - ACE-Ego-0:统一第一人称人类与机器人数据用于VLA预训练

来源:https://huggingface.co/papers/2606.17200

摘要

一个统一的视觉-语言-动作预训练框架,通过可靠性感知的训练方法,利用包括人类第一人称视频和机器人轨迹在内的异质数据源,提升了具身AI任务的性能。

视觉-语言-动作(VLA)模型受益于大规模多样化的具身数据,然而扩展机器人轨迹收集(https://huggingface.co/papers?q=robot%20trajectory%20collection)成本高昂且劳动密集。近期进展表明,大规模第一人称人类视频(https://huggingface.co/papers?q=egocentric%20human%20videos)在预训练中提供了互补的真实世界监督。然而,由于动作空间、具身结构、时间动态和监督质量上的差异,在人类与机器人数据上联合训练仍具挑战。我们提出ACE-EGO-0,一个统一的VLA预训练框架,联合利用异质数据源。为了从第一人称人类视频(https://huggingface.co/papers?q=egocentric%20human%20videos)中提取大规模预训练监督,我们构建了一个可扩展的第一人称视频到动作流水线,将原始人类视频转换为机器人格式的伪动作轨迹(https://huggingface.co/papers?q=pseudo-action%20trajectories)。为使这些标签能与机器人演示相比,ACE-EGO-0使用了一种基于相机空间动作(https://huggingface.co/papers?q=camera-space%20actions)、形态条件化和时间对齐动作分块(https://huggingface.co/papers?q=time-aligned%20action%20chunking)的统一动作表示(https://huggingface.co/papers?q=unified%20action%20representation)。为了稳健地利用来自第一人称人类视频(https://huggingface.co/papers?q=egocentric%20human%20videos)的有噪声伪动作监督,我们设计了一个带有辅助人类损失(https://huggingface.co/papers?q=human%20auxiliary%20loss)的可靠性感知训练目标(https://huggingface.co/papers?q=reliability-aware%20training%20objective),将监督集中在可靠信号上。我们在4.53K小时的机器人与仿真数据以及1.48K小时带有伪动作标签的第一人称人类数据上实例化了ACE-EGO-0。实验表明,在可靠性感知加权下纳入大规模人类监督,持续提升了统一联合预训练和监督微调的性能。ACE-EGO-0在RoboCasa GR1 TableTop和RoboTwin 2.0上达到了最先进水平,并展现出向真实世界双臂操作任务的强迁移能力。

查看arXiv页面(https://arxiv.org/abs/2606.17200)查看PDF(https://arxiv.org/pdf/2606.17200)项目页面(https://acerobotics-vla.github.io/ACE-Ego/)GitHub2(https://github.com/ACERobotics-VLA/ACE-Ego-0)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.17200)

在您的Agent中获取此论文:

hf papers read 2606.17200

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.17200,即可从此页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.17200,即可从此页面链接。

引用此论文的Space0

无Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.17200,即可从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加至收藏集(https://huggingface.co/new-collection),即可从此页面链接。

相似文章

ActiveMimic: 基于主动感知的自我中心视频预训练

Hugging Face Daily Papers

ActiveMimic 是一个预训练框架,它从自我中心人体视频中恢复相机和手腕轨迹,将主动感知建模为视角动作,从而使机器人预训练能够达到与直接在机器人数据上训练的模型相当的性能。

EgoPhys:从第一人称视频学习可变形物体的通用物理模型

Hugging Face Daily Papers

EgoPhys 提出一个框架,利用通用先验和紧凑码本从第一人称 RGB 视频构建可变形物理数字孪生,无需针对每个弹簧进行优化即可实现对新物体的零样本泛化。该系统在真实机器人上进行了演示,表明第一人称人类玩耍视频可以作为可变形物体规划的内部世界表征。