@LeRobotHF: VLA-JEPA 刚刚在 LeRobot 中发布。这个模型的特别之处在于它不仅学习从观测中采取什么行动……

X AI KOLs Following 模型

摘要

VLA-JEPA,一种集成了 JEPA 世界模型以学习动作相关动态的新模型,已在 LeRobot 中发布。它支持使用人类视频进行预训练,仅需少量微调即可获得强大性能,并在 NVIDIA DGX Spark 上实时运行。

VLA-JEPA 刚刚在 LeRobot 中发布 这个模型的特别之处在于它不仅学习从给定观测中采取什么行动,还利用 JEPA 世界模型学习动作相关动态。 在训练过程中,VLA 通过调节其预测器来利用 V-JEPA2。这个巧妙的技巧为训练增加了世界建模的目标,从而也允许在人类视频上进行预训练。 在推理时,世界模型被完全丢弃,只保留标准的 VLA 架构:Qwen 主干网络和动作头部。 这里的演示仅用 13 个示例进行微调,展示了强大的预训练能力,并在 @NVIDIARobotics DGX Spark 上实时运行! VLA-JEPA 是第一个移植到 LeRobot 的世界模型,我觉得这不会是最后一个 @Thom_Wolf @ClementDelangue
查看原文
查看缓存全文

缓存时间: 2026/06/08 05:14

VLA-JEPA 刚刚在 LeRobot 中发布

这个模型的特别之处在于,它不仅学习从给定的观测中应采取什么行动,还利用 JEPA 世界模型来学习与动作相关的动态。

训练过程中,VLA 通过条件化其预测器来利用 V-JEPA2。这一巧妙技巧为训练增加了世界建模目标,也允许在人类视频上进行预训练。 推理时,世界模型被完全丢弃,只保留标准的 VLA 架构:Qwen 主干和动作头。

这里的演示仅对 13 个示例进行了微调,展示了强大的预训练能力,并在 @NVIDIARobotics DGX Spark 上实时运行!

VLA-JEPA 是第一个移植到 LeRobot 的世界模型,我觉得它不会是最后一个

@Thom_Wolf @ClementDelangue

相似文章