PAIWorld: 面向机器人操作的三维一致世界基础模型
摘要
PAIWorld 通过几何感知和跨视图注意力机制增强扩散变换器世界模型,提升机器人操作任务中的多视图三维一致性,在基准测试上达到最优结果。
查看缓存全文
缓存时间: 2026/06/18 03:55
论文页面 - PAIWorld: 面向机器人操作的3D一致世界基础模型
来源: https://huggingface.co/papers/2606.18375 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
PAIWorld 通过几何感知和跨视角注意力增强了扩散变换器世界模型,提升了机器人操作任务中的多视角3D一致性。
世界基础模型 (https://huggingface.co/papers?q=World%20foundation%20models) (WFM) 是强大的模拟器,但它们主要运行在单视角设置下,缺乏机器人操作 (https://huggingface.co/papers?q=robotic%20manipulation) 所需的多视角3D一致性 (https://huggingface.co/papers?q=3D%20consistency)。虽然机器人系统依赖多摄像头(第一人称、眼到手和手腕安装)进行策略学习,但当前的多视角世界模型只是简单拼接视角标记,缺乏显式的几何推理。这导致了跨视角物体漂移、深度不一致和纹理错位。我们将这些失败归因于两个不足:缺乏显式的视角间通信机制和缺少3D几何先验。我们认为同时解决这两个问题既必要又充分。为此,我们提出了 PAIWorld,一个通过三个核心组件增强扩散变换器 (https://huggingface.co/papers?q=diffusion-transformer) 世界模型的框架:(1) 几何感知跨视角注意力 (https://huggingface.co/papers?q=Cross-View%20Attention) 模块,建立跨视角的显式通路;(2) 几何旋转位置编码 (https://huggingface.co/papers?q=Geometric%20Rotary%20Position%20Embedding),将相机射线方向和外部位姿编码到注意力机制中;(3) 潜在3D-REPA (https://huggingface.co/papers?q=Latent%203D-REPA),从冻结的3D基础模型中提取3D感知特征以确保3D一致性 (https://huggingface.co/papers?q=3D%20consistency)。基于 DiT 世界基础模型构建的 PAIWorld 在机器人操作 (https://huggingface.co/papers?q=robotic%20manipulation) 基准上实现了最先进的多视角3D一致性 (https://huggingface.co/papers?q=3D%20consistency),在 WorldArena (https://huggingface.co/papers?q=WorldArena) 排行榜上排名第一,在 AgiBot-Challenge2026 (https://huggingface.co/papers?q=AgiBot-Challenge2026) 排行榜上排名第二,同时支持下游应用,如基于模型的规划、世界行动模型和多视角策略后训练。
查看 arXiv 页面 (https://arxiv.org/abs/2606.18375)查看 PDF (https://arxiv.org/pdf/2606.18375)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18375)
在你的代理中获取此论文:
hf papers read 2606\.18375
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.18375 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.18375 以从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.18375 以从此页面链接。
包含此论文的收藏集0
没有收藏集包含此论文
将此论文添加到收藏集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
WEAVER:更好、更快、更长 —— 一种有效的机器人操作世界模型
WEAVER是一种用于机器人操作的多视角世界模型,通过流匹配损失实现了高保真度、一致性和效率,在策略评估、策略改进和测试时规划中表现出色,并在真实世界中取得了显著改进。
τ_0-WM: 用于机器人操作的统一视频-动作世界模型
τ_0-WM是一个统一的视频-动作世界模型,用于机器人操作,它通过共享的视频扩散主干集成了策略学习、视频预测和动作评估。在具有挑战性的长周期和细粒度任务上表现出卓越性能。
世界模型与物理AI教程
本教程提供了一个统一的框架,将多种世界建模方法整合在一起,用于物理AI,涵盖了显式世界模型和隐式世界模型及其在预测、推理和规划中的作用。
Qwen-RobotWorld技术报告:通过语言条件视频生成统一具身世界建模
Qwen-RobotWorld是一个语言条件视频世界模型,利用双流扩散变换器和860万视频-文本语料库,预测多个机器人领域的未来视觉轨迹。它统一了机器人操作、自动驾驶、室内导航和人机迁移的具身世界建模,在EWMBench和DreamGen Bench上取得了顶尖基准成绩。
AHA-WAM:异步视野自适应世界动作建模与观测引导上下文路由
AHA-WAM是一种异步世界动作模型,采用双扩散Transformer将世界预测与动作执行解耦,实现了高效的长视野规划和实时控制。它在机器人操作任务上达到了最先进的性能,在RoboTwin上成功率达92.8%,在现实世界任务中达78.3%,同时实现了24.17 Hz的闭环控制。