PAIWorld: 面向机器人操作的三维一致世界基础模型

Hugging Face Daily Papers 论文

摘要

PAIWorld 通过几何感知和跨视图注意力机制增强扩散变换器世界模型,提升机器人操作任务中的多视图三维一致性,在基准测试上达到最优结果。

世界基础模型(WFMs)是强大的模拟器,但主要工作在单视图环境下,缺乏机器人操作所需的多视图三维一致性。虽然机器人系统依赖多个摄像头(自我中心视角、眼到手视角和腕装视角)进行策略学习,但当前的多视图世界模型仅仅拼接视图令牌,缺乏显式的几何推理,导致跨视图物体漂移、深度不一致和纹理错位。我们将这些失败归因于两个不足:缺乏显式的视图间通信机制,以及缺乏三维几何先验。我们认为同时解决这两个问题既必要又充分。为此,我们提出 PAIWorld,一个通过三个核心组件增强扩散变换器世界模型的框架:(1) 几何感知跨视图注意力模块,建立视图间的显式通路;(2) 几何旋转位置编码,将相机光线方向和外部姿态编码到注意力机制中;(3) 潜在三维 REPA,从冻结的三维基础模型中蒸馏三维感知特征以确保三维一致性。基于 DiT 的世界基础模型,PAIWorld 在机器人操作基准测试上实现了最先进的多视图三维一致性,在 WorldArena 排行榜上排名第一,在 AgiBot-Challenge2026 排行榜上排名第二,并支持下游应用如基于模型的规划、世界动作模型和多视图策略后训练。
查看原文
查看缓存全文

缓存时间: 2026/06/18 03:55

论文页面 - PAIWorld: 面向机器人操作的3D一致世界基础模型

来源: https://huggingface.co/papers/2606.18375 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

PAIWorld 通过几何感知和跨视角注意力增强了扩散变换器世界模型,提升了机器人操作任务中的多视角3D一致性。

世界基础模型 (https://huggingface.co/papers?q=World%20foundation%20models) (WFM) 是强大的模拟器,但它们主要运行在单视角设置下,缺乏机器人操作 (https://huggingface.co/papers?q=robotic%20manipulation) 所需的多视角3D一致性 (https://huggingface.co/papers?q=3D%20consistency)。虽然机器人系统依赖多摄像头(第一人称、眼到手和手腕安装)进行策略学习,但当前的多视角世界模型只是简单拼接视角标记,缺乏显式的几何推理。这导致了跨视角物体漂移、深度不一致和纹理错位。我们将这些失败归因于两个不足:缺乏显式的视角间通信机制和缺少3D几何先验。我们认为同时解决这两个问题既必要又充分。为此,我们提出了 PAIWorld,一个通过三个核心组件增强扩散变换器 (https://huggingface.co/papers?q=diffusion-transformer) 世界模型的框架:(1) 几何感知跨视角注意力 (https://huggingface.co/papers?q=Cross-View%20Attention) 模块,建立跨视角的显式通路;(2) 几何旋转位置编码 (https://huggingface.co/papers?q=Geometric%20Rotary%20Position%20Embedding),将相机射线方向和外部位姿编码到注意力机制中;(3) 潜在3D-REPA (https://huggingface.co/papers?q=Latent%203D-REPA),从冻结的3D基础模型中提取3D感知特征以确保3D一致性 (https://huggingface.co/papers?q=3D%20consistency)。基于 DiT 世界基础模型构建的 PAIWorld 在机器人操作 (https://huggingface.co/papers?q=robotic%20manipulation) 基准上实现了最先进的多视角3D一致性 (https://huggingface.co/papers?q=3D%20consistency),在 WorldArena (https://huggingface.co/papers?q=WorldArena) 排行榜上排名第一,在 AgiBot-Challenge2026 (https://huggingface.co/papers?q=AgiBot-Challenge2026) 排行榜上排名第二,同时支持下游应用,如基于模型的规划、世界行动模型和多视角策略后训练。

查看 arXiv 页面 (https://arxiv.org/abs/2606.18375)查看 PDF (https://arxiv.org/pdf/2606.18375)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18375)

在你的代理中获取此论文:

hf papers read 2606\.18375

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.18375 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.18375 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.18375 以从此页面链接。

包含此论文的收藏集0

没有收藏集包含此论文

将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

τ_0-WM: 用于机器人操作的统一视频-动作世界模型

Hugging Face Daily Papers

τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。

世界模型与物理AI教程

arXiv cs.AI

本教程提供了一个统一的框架,将多种世界建模方法整合在一起,用于物理AI,涵盖了显式世界模型和隐式世界模型及其在预测、推理和规划中的作用。

Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界建模

Hugging Face Daily Papers

Qwen-RobotWorld是一个语言条件视频世界模型,利用双流扩散变换器和860万视频-文本语料库,预测多个机器人领域的未来视觉轨迹。它统一了机器人操作、自动驾驶、室内导航和人机迁移的具身世界建模,在EWMBench和DreamGen Bench上取得了顶尖基准成绩。

AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由

Hugging Face Daily Papers

AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。