EgoPhys:从第一人称视频学习可变形物体的通用物理模型

Hugging Face Daily Papers 论文

摘要

EgoPhys 提出一个框架,利用通用先验和紧凑码本从第一人称 RGB 视频构建可变形物理数字孪生,无需针对每个弹簧进行优化即可实现对新物体的零样本泛化。该系统在真实机器人上进行了演示,表明第一人称人类玩耍视频可以作为可变形物体规划的内部世界表征。

人类通过日常互动自然理解物体物理特性,但准确预测复杂可变形动力学(如弹性材料和织物)仍是计算机视觉和机器人学的主要挑战。我们提出 EgoPhys,一个利用通用先验从仅包含第一人称视角的 RGB 视频构建可变形物理数字孪生的框架。EgoPhys 通过将逐物体的逆物理解蒸馏到紧凑码本中,克服了现有方法的局限性,实现了从第一人称视频中生成可控可变形数字孪生,且无需在测试时对每个弹簧进行优化即可预测未见过的物体的密集弹簧刚度场。得益于从多样化的第一人称交互中学习到的通用先验,EgoPhys 在重建、未来预测和零样本泛化方面优于基线方法。为支持训练和评估,我们整理了一个包含多种可变形物体、场景和操作风格的第一人称交互数据集。我们将 EgoPhys 部署在真实的 xArm6 机器人上,证明仅从一段第一人称人类玩耍视频初始化的数字孪生可作为内部世界表征来辅助可变形物体规划,突显了第一人称 RGB 观察作为从真实到仿真管道的可扩展路径。
查看原文
查看缓存全文

缓存时间: 2026/06/16 15:32

论文页面 - EgoPhys:从第一人称视频中学习可变形物体的通用物理模型

来源:https://huggingface.co/papers/2606.16202

摘要

EgoPhys 通过使用通用先验和紧凑码本,从第一人称 RGB 视频中生成可变形数字孪生,无需针对每个弹簧进行优化即可预测稠密弹簧刚度场。

人类通过日常交互自然理解物体物理,但准确预测复杂的可变形动力学(如弹性材料和织物)仍是计算机视觉和机器人领域的主要挑战。我们提出 EgoPhys,这是一个利用通用先验 (https://huggingface.co/papers?q=generalizable%20priors) 从仅含 RGB 的第一人称视频构建可变形物理数字孪生的框架。EgoPhys 通过将每个物体的逆物理求解 (https://huggingface.co/papers?q=inverse-physics%20solutions) 蒸馏到紧凑码本 (https://huggingface.co/papers?q=codebook) 中,克服了现有方法的局限,使得从第一人称视频生成可控可变形数字孪生成为可能——无需在测试时对每个弹簧进行优化即可预测稠密弹簧刚度场 (https://huggingface.co/papers?q=dense%20spring%20stiffness%20fields)。利用来自多样化第一人称交互的通用先验进行训练,EgoPhys 在重建、未来预测和零样本泛化 (https://huggingface.co/papers?q=zero-shot%20generalization) 方面优于基线方法。为支持训练与评估,我们整理了一个覆盖多种可变形物体、场景和操作风格的第一人称交互数据集。我们将 EgoPhys 部署在一台真实的 xArm6 机器人 (https://huggingface.co/papers?q=xArm6%20robot) 上,展示了从单段第一人称人类操作视频初始化的数字孪生可作为内部世界表示,辅助可变形物体的规划,凸显了第一人称 RGB 观测作为通向实到仿真流程 (https://huggingface.co/papers?q=real-to-sim%20pipelines) 的可扩展路径。

查看 arXiv 页面 (https://arxiv.org/abs/2606.16202)查看 PDF (https://arxiv.org/pdf/2606.16202)项目页面 (https://hjhyunjinkim.github.io/EgoPhys/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16202)

在您的代理中获取此论文:

hf papers read 2606\.16202

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.16202 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.16202 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.16202 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

添加此论文到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

PhysBrain 1.0 技术报告

Hugging Face Daily Papers

PhysBrain 1.0 是一份技术报告,提出了一种利用人类自我中心视频为视觉-语言-动作模型生成物理常识监督的方法,在ERQA、PhysBench、SimplerEnv-WidowX、LIBERO和RoboCasa等具身控制基准上取得了最先进的结果。

ActiveMimic: 基于主动感知的自我中心视频预训练

Hugging Face Daily Papers

ActiveMimic 是一个预训练框架,它从自我中心人体视频中恢复相机和手腕轨迹,将主动感知建模为视角动作,从而使机器人预训练能够达到与直接在机器人数据上训练的模型相当的性能。

人类通用抓取

Hugging Face Daily Papers

一种流匹配模型可从RGB-D图像生成多样化的人类抓取动作,实现零样本机器人抓取,性能优于现有方法。该模型在大规模自我中心数据集上训练,在新基准测试中显著超越当前最先进的基线方法。