@LeRobotHF: VLA-JEPA 刚刚在 LeRobot 中发布。这个模型的特别之处在于它不仅学习从观测中采取什么行动……
摘要
VLA-JEPA,一种集成了 JEPA 世界模型以学习动作相关动态的新模型,已在 LeRobot 中发布。它支持使用人类视频进行预训练,仅需少量微调即可获得强大性能,并在 NVIDIA DGX Spark 上实时运行。
查看缓存全文
缓存时间: 2026/06/08 05:14
VLA-JEPA 刚刚在 LeRobot 中发布
这个模型的特别之处在于,它不仅学习从给定的观测中应采取什么行动,还利用 JEPA 世界模型来学习与动作相关的动态。
训练过程中,VLA 通过条件化其预测器来利用 V-JEPA2。这一巧妙技巧为训练增加了世界建模目标,也允许在人类视频上进行预训练。 推理时,世界模型被完全丢弃,只保留标准的 VLA 架构:Qwen 主干和动作头。
这里的演示仅对 13 个示例进行了微调,展示了强大的预训练能力,并在 @NVIDIARobotics DGX Spark 上实时运行!
VLA-JEPA 是第一个移植到 LeRobot 的世界模型,我觉得它不会是最后一个
@Thom_Wolf @ClementDelangue
相似文章
@AbdelStark: 是时候让世界服下JEPA药丸了!awesome-jepa:一份精心整理的论文、模型、代码、数据集和学习资源列表……
一份精心整理的关于Joint Embedding Predictive Architectures(JEPA)的论文、模型、代码、数据集和学习资源列表,这是Yann LeCun提出的用于世界模型的自监督方法。
那么,Yann LeCun 的 "World Models" 和 JEPA 究竟是什么?它真的能替代 LLM 吗?
讨论了 Yann LeCun 近期 arXiv 论文中的 "World Models" 和 JEPA,澄清了它并非 LLM 的替代品,而是一个针对机器人、自动驾驶和工业控制等领域视觉处理优化的模型。
GitHub - keon/jepa: 实现联合嵌入预测架构(JEPA)的极简版本
一个 GitHub 仓库,提供 JEPA 系列模型(I-JEPA、V-JEPA、V-JEPA 2、C-JEPA)的极简、独立 PyTorch 重新实现,供教育用途,包含教程和可视化工具。
Sub-JEPA:对LeCun团队的LeWorldModel的一个简单修复,可一致提升性能 [P]
Sub-JEPA通过在冻结的随机正交子空间中应用高斯正则化来改进LeWorldModel,在基准测试中一致优于原始版本,改进幅度高达+10.7个百分点。
Hy-Embodied-0.5-VLA: 从视觉-语言-动作模型到真实世界机器人学习栈
HyVLA-0.5 是一个端到端机器人学习系统,整合了数据收集、模型设计、预训练、微调和强化学习,用于真实世界部署。