PAIWorld: 面向机器人操作的三维一致世界基础模型

Hugging Face Daily Papers 2026/06/16 00:00 论文

摘要

PAIWorld 通过几何感知和跨视图注意力机制增强扩散变换器世界模型，提升机器人操作任务中的多视图三维一致性，在基准测试上达到最优结果。

世界基础模型（WFMs）是强大的模拟器，但主要工作在单视图环境下，缺乏机器人操作所需的多视图三维一致性。虽然机器人系统依赖多个摄像头（自我中心视角、眼到手视角和腕装视角）进行策略学习，但当前的多视图世界模型仅仅拼接视图令牌，缺乏显式的几何推理，导致跨视图物体漂移、深度不一致和纹理错位。我们将这些失败归因于两个不足：缺乏显式的视图间通信机制，以及缺乏三维几何先验。我们认为同时解决这两个问题既必要又充分。为此，我们提出 PAIWorld，一个通过三个核心组件增强扩散变换器世界模型的框架：(1) 几何感知跨视图注意力模块，建立视图间的显式通路；(2) 几何旋转位置编码，将相机光线方向和外部姿态编码到注意力机制中；(3) 潜在三维 REPA，从冻结的三维基础模型中蒸馏三维感知特征以确保三维一致性。基于 DiT 的世界基础模型，PAIWorld 在机器人操作基准测试上实现了最先进的多视图三维一致性，在 WorldArena 排行榜上排名第一，在 AgiBot-Challenge2026 排行榜上排名第二，并支持下游应用如基于模型的规划、世界动作模型和多视图策略后训练。

查看原文

查看缓存全文

缓存时间: 2026/06/18 03:55

论文页面 - PAIWorld: 面向机器人操作的3D一致世界基础模型

来源: https://huggingface.co/papers/2606.18375 作者:

摘要

PAIWorld 通过几何感知和跨视角注意力增强了扩散变换器世界模型，提升了机器人操作任务中的多视角3D一致性。

世界基础模型 (https://huggingface.co/papers?q=World%20foundation%20models) (WFM) 是强大的模拟器，但它们主要运行在单视角设置下，缺乏机器人操作 (https://huggingface.co/papers?q=robotic%20manipulation) 所需的多视角3D一致性 (https://huggingface.co/papers?q=3D%20consistency)。虽然机器人系统依赖多摄像头（第一人称、眼到手和手腕安装）进行策略学习，但当前的多视角世界模型只是简单拼接视角标记，缺乏显式的几何推理。这导致了跨视角物体漂移、深度不一致和纹理错位。我们将这些失败归因于两个不足：缺乏显式的视角间通信机制和缺少3D几何先验。我们认为同时解决这两个问题既必要又充分。为此，我们提出了 PAIWorld，一个通过三个核心组件增强扩散变换器 (https://huggingface.co/papers?q=diffusion-transformer) 世界模型的框架：(1) 几何感知跨视角注意力 (https://huggingface.co/papers?q=Cross-View%20Attention) 模块，建立跨视角的显式通路；(2) 几何旋转位置编码 (https://huggingface.co/papers?q=Geometric%20Rotary%20Position%20Embedding)，将相机射线方向和外部位姿编码到注意力机制中；(3) 潜在3D-REPA (https://huggingface.co/papers?q=Latent%203D-REPA)，从冻结的3D基础模型中提取3D感知特征以确保3D一致性 (https://huggingface.co/papers?q=3D%20consistency)。基于 DiT 世界基础模型构建的 PAIWorld 在机器人操作 (https://huggingface.co/papers?q=robotic%20manipulation) 基准上实现了最先进的多视角3D一致性 (https://huggingface.co/papers?q=3D%20consistency)，在 WorldArena (https://huggingface.co/papers?q=WorldArena) 排行榜上排名第一，在 AgiBot-Challenge2026 (https://huggingface.co/papers?q=AgiBot-Challenge2026) 排行榜上排名第二，同时支持下游应用，如基于模型的规划、世界行动模型和多视角策略后训练。

查看 arXiv 页面 (https://arxiv.org/abs/2606.18375)查看 PDF (https://arxiv.org/pdf/2606.18375)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18375)

在你的代理中获取此论文:

hf papers read 2606\.18375

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.18375 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.18375 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.18375 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

PAIWorld: 面向机器人操作的三维一致世界基础模型

论文页面 - PAIWorld: 面向机器人操作的3D一致世界基础模型

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

WEAVER：更好、更快、更长 —— 一种有效的机器人操作世界模型

τ_0-WM: 用于机器人操作的统一视频-动作世界模型

世界模型与物理AI教程

Qwen-RobotWorld技术报告：通过语言条件视频生成统一具身世界建模

AHA-WAM：异步视野自适应世界动作建模与观测引导上下文路由

提交意见反馈