PhysBrain 1.0 技术报告

Hugging Face Daily Papers 论文

摘要

PhysBrain 1.0 是一份技术报告,提出了一种利用人类自我中心视频为视觉-语言-动作模型生成物理常识监督的方法,在ERQA、PhysBench、SimplerEnv-WidowX、LIBERO和RoboCasa等具身控制基准上取得了最先进的结果。

视觉-语言-动作模型发展迅速,但仅靠机器人轨迹数据在广泛物理理解学习上的覆盖有限。PhysBrain 1.0 研究了一条互补路径:在机器人适应之前,将大规模人类自我中心视频转化为结构化的物理常识监督。我们的数据引擎提取场景元素、空间动态、动作执行和深度感知关系,然后将它们转化为问答监督来训练 PhysBrain VLM。所得到的物理先验进一步通过一种保留能力和语言敏感的适配设计转移到 VLA 策略中。在多模态问答基准和具身控制基准(包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO 和 RoboCasa)上,PhysBrain 1.0 取得了最先进的结果,并在 SimplerEnv 上表现出特别强的域外性能。这些结果表明,从人类交互视频中扩展物理常识可以为从多模态理解到机器人行动提供有效的桥梁。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:24

论文页面 - PhysBrain 1.0 技术报告

来源:https://huggingface.co/papers/2605.15298 作者:

摘要

PhysBrain 1.0 利用人类自我中心视频为视觉-语言-动作模型生成物理常识监督,通过保持能力的适配方法在具身控制任务中实现了最先进的性能。

视觉-语言-动作模型(https://huggingface.co/papers?q=Vision-language-action%20models)发展迅速,但仅靠机器人轨迹数据在学习广泛物理理解方面覆盖有限。PhysBrain 1.0 研究了一条互补路径:在机器人适配之前,将大规模人类自我中心视频转化为结构化的物理常识监督(https://huggingface.co/papers?q=physical%20commonsense%20supervision)。我们的数据引擎提取场景元素、空间动态、动作执行和深度感知关系,然后将其转化为问答监督,用于训练 PhysBrain VLM。由此产生的物理先验通过一种保持能力且对语言敏感的适配设计(https://huggingface.co/papers?q=language-sensitive%20adaptation)进一步迁移到 VLA 策略(https://huggingface.co/papers?q=VLA%20policies)中。在多项多模态问答基准(https://huggingface.co/papers?q=multimodal%20QA%20benchmarks)和具身控制基准(https://huggingface.co/papers?q=embodied%20control%20benchmarks)上,包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO 和 RoboCasa,PhysBrain 1.0 均取得了 SOTA 结果,并在 SimplerEnv 上展现出极强的域外泛化性能。这些结果表明,从人类交互视频中扩展物理常识可以为多模态理解到机器人动作的转化提供有效的桥梁。

查看 arXiv 页面(https://arxiv.org/abs/2605.15298)查看 PDF(https://arxiv.org/pdf/2605.15298)项目页面(https://phys-brain.github.io/)GitHub4(https://github.com/Phys-Brain/PhysBrain-VLA)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.15298)

在你的 agent 中获取这篇论文:

hf papers read 2605.15298

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.15298 以从本页面链接。

引用此论文的数据集0

无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15298 以从本页面链接。

引用此论文的 Spaces0

无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.15298 以从本页面链接。

包含此论文的收藏1

相似文章

ESI-Bench:迈向闭环感知-行动的具身空间智能

Hugging Face Daily Papers

介绍了 ESI-BENCH,这是一个基于 OmniGibson 构建的全面具身空间智能基准,涵盖 10 个任务类别和 29 个子类别。实验表明,主动探索显著优于被动方法,失败主要源于行动盲视而非感知,揭示了模型与人类相比的元认知差距。