PhysBrain 1.0 技术报告

Hugging Face Daily Papers 2026/05/14 00:00 论文

摘要

PhysBrain 1.0 是一份技术报告，提出了一种利用人类自我中心视频为视觉-语言-动作模型生成物理常识监督的方法，在ERQA、PhysBench、SimplerEnv-WidowX、LIBERO和RoboCasa等具身控制基准上取得了最先进的结果。

视觉-语言-动作模型发展迅速，但仅靠机器人轨迹数据在广泛物理理解学习上的覆盖有限。PhysBrain 1.0 研究了一条互补路径：在机器人适应之前，将大规模人类自我中心视频转化为结构化的物理常识监督。我们的数据引擎提取场景元素、空间动态、动作执行和深度感知关系，然后将它们转化为问答监督来训练 PhysBrain VLM。所得到的物理先验进一步通过一种保留能力和语言敏感的适配设计转移到 VLA 策略中。在多模态问答基准和具身控制基准（包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO 和 RoboCasa）上，PhysBrain 1.0 取得了最先进的结果，并在 SimplerEnv 上表现出特别强的域外性能。这些结果表明，从人类交互视频中扩展物理常识可以为从多模态理解到机器人行动提供有效的桥梁。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:24

论文页面 - PhysBrain 1.0 技术报告

来源：https://huggingface.co/papers/2605.15298 作者：

，

摘要

PhysBrain 1.0 利用人类自我中心视频为视觉-语言-动作模型生成物理常识监督，通过保持能力的适配方法在具身控制任务中实现了最先进的性能。

视觉-语言-动作模型（https://huggingface.co/papers?q=Vision-language-action%20models）发展迅速，但仅靠机器人轨迹数据在学习广泛物理理解方面覆盖有限。PhysBrain 1.0 研究了一条互补路径：在机器人适配之前，将大规模人类自我中心视频转化为结构化的物理常识监督（https://huggingface.co/papers?q=physical%20commonsense%20supervision）。我们的数据引擎提取场景元素、空间动态、动作执行和深度感知关系，然后将其转化为问答监督，用于训练 PhysBrain VLM。由此产生的物理先验通过一种保持能力且对语言敏感的适配设计（https://huggingface.co/papers?q=language-sensitive%20adaptation）进一步迁移到 VLA 策略（https://huggingface.co/papers?q=VLA%20policies）中。在多项多模态问答基准（https://huggingface.co/papers?q=multimodal%20QA%20benchmarks）和具身控制基准（https://huggingface.co/papers?q=embodied%20control%20benchmarks）上，包括 ERQA、PhysBench、SimplerEnv-WidowX、LIBERO 和 RoboCasa，PhysBrain 1.0 均取得了 SOTA 结果，并在 SimplerEnv 上展现出极强的域外泛化性能。这些结果表明，从人类交互视频中扩展物理常识可以为多模态理解到机器人动作的转化提供有效的桥梁。

查看 arXiv 页面（https://arxiv.org/abs/2605.15298）查看 PDF（https://arxiv.org/pdf/2605.15298）项目页面（https://phys-brain.github.io/）GitHub4（https://github.com/Phys-Brain/PhysBrain-VLA）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2605.15298）

在你的 agent 中获取这篇论文：

hf papers read 2605.15298

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

无模型关联此论文

请在模型 README.md 中引用 arxiv.org/abs/2605.15298 以从本页面链接。

引用此论文的数据集0

无数据集关联此论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.15298 以从本页面链接。

引用此论文的 Spaces0

无 Space 关联此论文

请在 Space README.md 中引用 arxiv.org/abs/2605.15298 以从本页面链接。

PhysBrain 1.0 技术报告

论文页面 - PhysBrain 1.0 技术报告

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏1

相似文章

tencent/Hy-Embodied-RxBrain-1.0 · Hugging Face

EgoPhys：从第一人称视频学习可变形物体的通用物理模型

Embodied-R1.5: 通过具身基础模型进化物理智能

Qwen-RobotWorld技术报告：通过语言条件视频生成统一具身世界建模

iFLYTEK-Embodied-Omni Technical Report

提交意见反馈