PhysBrain 1.0 技术报告
摘要
PhysBrain 1.0 是一份技术报告,提出了一种利用人类自我中心视频为视觉-语言-动作模型生成物理常识监督的方法,在ERQA、PhysBench、SimplerEnv-WidowX、LIBERO和RoboCasa等具身控制基准上取得了最先进的结果。
查看缓存全文
缓存时间: 2026/05/18 06:24
论文页面 - PhysBrain 1.0 技术报告
来源:https://huggingface.co/papers/2605.15298 作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
PhysBrain 1.0 利用人类自我中心视频为视觉-语言-动作模型生成物理常识监督,通过保持能力的适配方法在具身控制任务中实现了最先进的性能。
视觉-语言-动作模型(https://huggingface.co/papers?q=Vision-language-action%20models)发展迅速,但仅靠机器人轨迹数据在学习广泛物理理解方面覆盖有限。PhysBrain 1.0 研究了一条互补路径:在机器人适配之前,将大规模人类自我中心视频转化为结构化的物理常识监督(https://huggingface.co/papers?q=physical%20commonsense%20supervision)。我们的数据引擎提取场景元素、空间动态、动作执行和深度感知关系,然后将其转化为问答监督,用于训练 PhysBrain VLM。由此产生的物理先验通过一种保持能力且对语言敏感的适配设计(https://huggingface.co/papers?q=language-sensitive%20adaptation)进一步迁移到 VLA 策略(https://huggingface.co/papers?q=VLA%20policies)中。在多项多模态问答基准(https://huggingface.co/papers?q=multimodal%20QA%20benchmarks)和具身控制基准(https://huggingface.co/papers?q=embodied%20control%20benchmarks)上,包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO 和 RoboCasa,PhysBrain 1.0 均取得了 SOTA 结果,并在 SimplerEnv 上展现出极强的域外泛化性能。这些结果表明,从人类交互视频中扩展物理常识可以为多模态理解到机器人动作的转化提供有效的桥梁。
查看 arXiv 页面(https://arxiv.org/abs/2605.15298)查看 PDF(https://arxiv.org/pdf/2605.15298)项目页面(https://phys-brain.github.io/)GitHub4(https://github.com/Phys-Brain/PhysBrain-VLA)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.15298)
在你的 agent 中获取这篇论文:
hf papers read 2605.15298
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
无模型关联此论文
请在模型 README.md 中引用 arxiv.org/abs/2605.15298 以从本页面链接。
引用此论文的数据集0
无数据集关联此论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.15298 以从本页面链接。
引用此论文的 Spaces0
无 Space 关联此论文
请在 Space README.md 中引用 arxiv.org/abs/2605.15298 以从本页面链接。
包含此论文的收藏1
相似文章
SeePhys Pro:诊断多模态 RLVR 在物理推理中的模态迁移与盲训练效应
该论文介绍了 SeePhys Pro,这是一个用于诊断多模态强化学习(RL)中模态迁移问题的基准测试,揭示了模型在表征不变推理方面存在困难,且往往依赖残留的文本线索而非视觉证据。
RoboStressBench:具身场景中VLM对物理视觉压力鲁棒性的基准测试
RoboStressBench提出了一个基准,用于评估视觉语言模型在具身场景中对物理视觉压力(材质、视点、光照、几何)的鲁棒性,并识别特定于压力的失效模式。
物理可行的世界模型:为查询条件化具身智能辩护
本文论证了具身AI的世界模型必须是物理可行的且查询条件化的,重点在于为每个干预查询识别最简单的物理抽象,而不是仅仅预测观察结果。
PhyMotion: 面向物理驱动人体视频生成的结构化3D运动奖励
PhyMotion 提出一种基于物理的奖励系统,评估生成视频中人体运动的运动学合理性、接触一致性和动态可行性,与人类判断具有更强的相关性,并在基于强化学习的后训练中提升运动真实感。
ESI-Bench:迈向闭环感知-行动的具身空间智能
介绍了 ESI-BENCH,这是一个基于 OmniGibson 构建的全面具身空间智能基准,涵盖 10 个任务类别和 29 个子类别。实验表明,主动探索显著优于被动方法,失败主要源于行动盲视而非感知,揭示了模型与人类相比的元认知差距。