Embodied-R1.5: 通过具身基础模型进化物理智能
摘要
Embodied-R1.5 是一个统一的具身基础模型,通过多任务平衡强化学习在 24 个具身视觉-语言基准测试中的 16 个上取得了最先进性能。它引入了一个规划器-接地器-校正器闭环框架用于长视界任务,并且已开源以促进未来研究。
查看缓存全文
缓存时间: 2026/06/11 13:40
论文页面 - Embodied-R1.5:通过具身基础模型进化物理智能
来源:https://huggingface.co/papers/2606.11324 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
Embodied-R1.5 是一个统一的具身基础模型,它整合了具身推理能力,并通过多任务平衡强化学习方法在具身视觉-语言基准测试中达到了最先进的性能。
我们提出了 Embodied-R1.5,这是一个统一的具身基础模型(EFM),它在单一架构中整合了全面的具身推理能力,涵盖具身认知、任务规划、修正和指代,旨在实现通用物理智能。借助三条自动化数据构建流水线来显著扩展关键能力的数据覆盖范围,我们构建了一个超过150亿 token 的大规模数据系统,并设计了一种多任务平衡的强化学习配方来缓解异构任务冲突。我们还引入了 Planner-Grounder-Corrector(PGC)闭环框架,使单个模型能够自主执行并自我修正长周期任务。仅凭80亿参数,Embodied-R1.5 在24个具身 VLM 基准测试中的16个上达到了 SOTA,超越了 Gemini-Robotics-ER-1.5 和 GPT-5.4 等领先模型。得益于内化的具身能力,Embodied-R1.5 可以通过少量数据微调为 VLA,在4个主流操作基准套件上优于 π_{0.5} 等领先 VLA 模型。我们进一步进行了广泛的零样本真实机器人实验,验证了指令跟随、可供性基础、铰接物体操作和长周期复杂任务方面的性能,展现出对物理世界的强大泛化能力。我们开源了模型权重、数据集、训练代码以及针对具身任务定制的评估框架 EmbodiedEvalKit,以促进 EFM 的未来研究。
查看 arXiv 页面 (https://arxiv.org/abs/2606.11324) 查看 PDF (https://arxiv.org/pdf/2606.11324) 项目页面 (https://embodied-r.github.io/) GitHub17 (https://github.com/pickxiguapi/Embodied-R1.5) 加入收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.11324)
在您的 agent 中获取此论文:
hf papers read 2606\.11324
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.11324 以从此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.11324 以从此页面链接。
引用此论文的 Space0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.11324 以从此页面链接。
包含此论文的收藏集1
相似文章
tencent/HY-Embodied-0.5
腾讯发布了HY-Embodied-0.5,这是一套为具身AI智能体设计的基础模型套件,采用混合变换器(MoT)架构,提供高效的2B和强大的32B变体,用于真实世界的机器人控制和时空推理。
PhysBrain 1.0 技术报告
PhysBrain 1.0 是一份技术报告,提出了一种利用人类自我中心视频为视觉-语言-动作模型生成物理常识监督的方法,在ERQA、PhysBench、SimplerEnv-WidowX、LIBERO和RoboCasa等具身控制基准上取得了最先进的结果。
Embodied-BenchClaw:一种用于具身空间智能基准构建的自主多智能体系统
本文提出Embodied-BenchClaw,一种自主多智能体系统,能够通过包含过程质量控制与可扩展技能库的五阶段流水线,根据用户意图自动构建具身空间智能基准。
EasyVideoR1:让视频理解的强化学习更简单
# 论文页面 - EasyVideoR1:让视频理解的强化学习更简单 来源:[https://huggingface.co/papers/2604.16893](https://huggingface.co/papers/2604.16893) ## 摘要 EasyVideoR1 提出了一个高效的视频理解强化学习框架,可提升训练吞吐量,支持多种视频任务,并实现图像-视频联合训练,在多个基准测试上进行全面评估。[可验证奖励强化学习](https://huggingface.co/papers
ESI-Bench:迈向闭环感知-行动的具身空间智能
介绍了 ESI-BENCH,这是一个基于 OmniGibson 构建的全面具身空间智能基准,涵盖 10 个任务类别和 29 个子类别。实验表明,主动探索显著优于被动方法,失败主要源于行动盲视而非感知,揭示了模型与人类相比的元认知差距。