EgoPhys:从第一人称视频学习可变形物体的通用物理模型
摘要
EgoPhys 提出一个框架,利用通用先验和紧凑码本从第一人称 RGB 视频构建可变形物理数字孪生,无需针对每个弹簧进行优化即可实现对新物体的零样本泛化。该系统在真实机器人上进行了演示,表明第一人称人类玩耍视频可以作为可变形物体规划的内部世界表征。
查看缓存全文
缓存时间: 2026/06/16 15:32
论文页面 - EgoPhys:从第一人称视频中学习可变形物体的通用物理模型
来源:https://huggingface.co/papers/2606.16202
摘要
EgoPhys 通过使用通用先验和紧凑码本,从第一人称 RGB 视频中生成可变形数字孪生,无需针对每个弹簧进行优化即可预测稠密弹簧刚度场。
人类通过日常交互自然理解物体物理,但准确预测复杂的可变形动力学(如弹性材料和织物)仍是计算机视觉和机器人领域的主要挑战。我们提出 EgoPhys,这是一个利用通用先验 (https://huggingface.co/papers?q=generalizable%20priors) 从仅含 RGB 的第一人称视频构建可变形物理数字孪生的框架。EgoPhys 通过将每个物体的逆物理求解 (https://huggingface.co/papers?q=inverse-physics%20solutions) 蒸馏到紧凑码本 (https://huggingface.co/papers?q=codebook) 中,克服了现有方法的局限,使得从第一人称视频生成可控可变形数字孪生成为可能——无需在测试时对每个弹簧进行优化即可预测稠密弹簧刚度场 (https://huggingface.co/papers?q=dense%20spring%20stiffness%20fields)。利用来自多样化第一人称交互的通用先验进行训练,EgoPhys 在重建、未来预测和零样本泛化 (https://huggingface.co/papers?q=zero-shot%20generalization) 方面优于基线方法。为支持训练与评估,我们整理了一个覆盖多种可变形物体、场景和操作风格的第一人称交互数据集。我们将 EgoPhys 部署在一台真实的 xArm6 机器人 (https://huggingface.co/papers?q=xArm6%20robot) 上,展示了从单段第一人称人类操作视频初始化的数字孪生可作为内部世界表示,辅助可变形物体的规划,凸显了第一人称 RGB 观测作为通向实到仿真流程 (https://huggingface.co/papers?q=real-to-sim%20pipelines) 的可扩展路径。
查看 arXiv 页面 (https://arxiv.org/abs/2606.16202)查看 PDF (https://arxiv.org/pdf/2606.16202)项目页面 (https://hjhyunjinkim.github.io/EgoPhys/)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.16202)
在您的代理中获取此论文:
hf papers read 2606\.16202
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.16202 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.16202 以从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.16202 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
添加此论文到一个收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
DeVI:基于物理的灵巧人-物交互,通过合成视频模仿实现
DeVI 提出一种框架,借助混合 3D-2D 跟踪奖励,将文本驱动的合成视频转化为具备物理可信度的灵巧机器人控制,实现对未见物体的零样本泛化。
EgoForce: 前臂引导的相机空间3D手部姿态——来自单目第一人称相机
EgoForce是一个单目3D手部重建框架,使用统一网络,包含可微分前臂表示、手臂-手部变换器和射线空间求解器,能够在不同相机模型下恢复绝对手部姿态和位置,在多个第一人称基准测试中达到了最先进的精度。
PhysBrain 1.0 技术报告
PhysBrain 1.0 是一份技术报告,提出了一种利用人类自我中心视频为视觉-语言-动作模型生成物理常识监督的方法,在ERQA、PhysBench、SimplerEnv-WidowX、LIBERO和RoboCasa等具身控制基准上取得了最先进的结果。
ActiveMimic: 基于主动感知的自我中心视频预训练
ActiveMimic 是一个预训练框架,它从自我中心人体视频中恢复相机和手腕轨迹,将主动感知建模为视角动作,从而使机器人预训练能够达到与直接在机器人数据上训练的模型相当的性能。
人类通用抓取
一种流匹配模型可从RGB-D图像生成多样化的人类抓取动作,实现零样本机器人抓取,性能优于现有方法。该模型在大规模自我中心数据集上训练,在新基准测试中显著超越当前最先进的基线方法。