ACE-Ego-0: 统一第一人称人类与机器人数据用于VLA预训练
摘要
ACE-EGO-0是一个统一的视觉-语言-动作预训练框架,利用第一人称人类视频和机器人轨迹,通过可靠性感知训练目标,在具身AI基准上达到了最先进水平。
查看缓存全文
缓存时间: 2026/06/17 03:35
论文页面 - ACE-Ego-0:统一第一人称人类与机器人数据用于VLA预训练
来源:https://huggingface.co/papers/2606.17200
摘要
一个统一的视觉-语言-动作预训练框架,通过可靠性感知的训练方法,利用包括人类第一人称视频和机器人轨迹在内的异质数据源,提升了具身AI任务的性能。
视觉-语言-动作(VLA)模型受益于大规模多样化的具身数据,然而扩展机器人轨迹收集(https://huggingface.co/papers?q=robot%20trajectory%20collection)成本高昂且劳动密集。近期进展表明,大规模第一人称人类视频(https://huggingface.co/papers?q=egocentric%20human%20videos)在预训练中提供了互补的真实世界监督。然而,由于动作空间、具身结构、时间动态和监督质量上的差异,在人类与机器人数据上联合训练仍具挑战。我们提出ACE-EGO-0,一个统一的VLA预训练框架,联合利用异质数据源。为了从第一人称人类视频(https://huggingface.co/papers?q=egocentric%20human%20videos)中提取大规模预训练监督,我们构建了一个可扩展的第一人称视频到动作流水线,将原始人类视频转换为机器人格式的伪动作轨迹(https://huggingface.co/papers?q=pseudo-action%20trajectories)。为使这些标签能与机器人演示相比,ACE-EGO-0使用了一种基于相机空间动作(https://huggingface.co/papers?q=camera-space%20actions)、形态条件化和时间对齐动作分块(https://huggingface.co/papers?q=time-aligned%20action%20chunking)的统一动作表示(https://huggingface.co/papers?q=unified%20action%20representation)。为了稳健地利用来自第一人称人类视频(https://huggingface.co/papers?q=egocentric%20human%20videos)的有噪声伪动作监督,我们设计了一个带有辅助人类损失(https://huggingface.co/papers?q=human%20auxiliary%20loss)的可靠性感知训练目标(https://huggingface.co/papers?q=reliability-aware%20training%20objective),将监督集中在可靠信号上。我们在4.53K小时的机器人与仿真数据以及1.48K小时带有伪动作标签的第一人称人类数据上实例化了ACE-EGO-0。实验表明,在可靠性感知加权下纳入大规模人类监督,持续提升了统一联合预训练和监督微调的性能。ACE-EGO-0在RoboCasa GR1 TableTop和RoboTwin 2.0上达到了最先进水平,并展现出向真实世界双臂操作任务的强迁移能力。
查看arXiv页面(https://arxiv.org/abs/2606.17200)查看PDF(https://arxiv.org/pdf/2606.17200)项目页面(https://acerobotics-vla.github.io/ACE-Ego/)GitHub2(https://github.com/ACERobotics-VLA/ACE-Ego-0)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.17200)
在您的Agent中获取此论文:
hf papers read 2606.17200
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型链接此论文
在模型README.md中引用arxiv.org/abs/2606.17200,即可从此页面链接。
引用此论文的数据集0
无数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2606.17200,即可从此页面链接。
引用此论文的Space0
无Space链接此论文
在Space README.md中引用arxiv.org/abs/2606.17200,即可从此页面链接。
包含此论文的收藏集0
无收藏集包含此论文
将此论文添加至收藏集(https://huggingface.co/new-collection),即可从此页面链接。
相似文章
ActiveMimic: 基于主动感知的自我中心视频预训练
ActiveMimic 是一个预训练框架,它从自我中心人体视频中恢复相机和手腕轨迹,将主动感知建模为视角动作,从而使机器人预训练能够达到与直接在机器人数据上训练的模型相当的性能。
Hy-Embodied-0.5-VLA: 从视觉-语言-动作模型到真实世界机器人学习栈
HyVLA-0.5 是一个端到端机器人学习系统,整合了数据收集、模型设计、预训练、微调和强化学习,用于真实世界部署。
EgoPhys:从第一人称视频学习可变形物体的通用物理模型
EgoPhys 提出一个框架,利用通用先验和紧凑码本从第一人称 RGB 视频构建可变形物理数字孪生,无需针对每个弹簧进行优化即可实现对新物体的零样本泛化。该系统在真实机器人上进行了演示,表明第一人称人类玩耍视频可以作为可变形物体规划的内部世界表征。
AR-VLA: 面向视觉-语言-动作模型的真正自回归动作专家
提出了AR-VLA,一个自回归动作专家,它通过长期记忆生成连续的、具有上下文感知能力的机器人策略训练的动作序列,相比反应式VLA模型,提高了轨迹平滑度和任务成功率。
MobileEgo Anywhere: 用于消费级硬件的长时域自我中心数据的开放基础设施
MobileEgo Anywhere 是一个基于移动设备的框架,利用智能手机传感器收集长时间自我中心机器人数据,通过降低硬件门槛,使得大规模训练视觉-语言-动作模型成为可能。