D4RT:教会 AI 以四维视角观察世界

Google DeepMind Blog 模型

摘要

DeepMind 推出 D4RT,一个统一的 AI 模型,用于动态 4D 场景重建与追踪,效率较此前方法提升高达 300 倍。该模型采用基于查询的 Transformer 架构,为机器人技术与 AR 应用解决复杂的空间和时序任务。

D4RT:统一且高效的 4D 重建与追踪,速度较先前方法提升高达 300 倍。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 09:22

# D4RT:教 AI 以四维视角观察世界 来源:https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/ 2026 年 1 月 22 日 | 研究 我们隆重推出 D4RT,这是一个统一的 AI 模型,能够在空间和时间维度上实现 4D 场景重建与追踪。 每当我们观察世界时,都在完成一项非凡的记忆与预测壮举。我们能看到并理解事物在某一时刻的状态、片刻之前的状态,以及接下来将要呈现的状态。我们内心对世界的模型维持着对现实的持续表征,并借助这一模型直观推断过去、现在与未来之间的因果关系。 为了让机器更像人类一样观察世界,我们可以为它们配备摄像头,但这仅解决了输入问题。要理解这些输入,计算机必须解决一个复杂的逆问题:将视频——即一系列二维平面投影——还原或理解为丰富、立体的三维动态世界。 今天,我们正式推出 D4RT(Dynamic 4D Reconstruction and Tracking,动态 4D 重建与追踪)(https://d4rt-paper.github.io/),这是一个全新的 AI 模型,将动态场景重建整合到单一、高效的框架中,让我们更接近人工智能的下一个前沿:对我们动态现实的全面感知。 ## 第四维度的挑战 为了让 AI 模型理解二维视频中的动态场景,它必须追踪每个物体的每一个像素,随着它们在三维空间和第四维时间中移动。此外,它还必须将物体的运动与摄像机的运动分离开来,即使在物体相互遮挡或完全离开画面时,仍保持连贯的表征。传统上,从二维视频中捕捉这种级别的几何与运动信息,需要计算密集型的流程,或者拼凑多个专用 AI 模型——有的负责深度,有的负责运动,还有的负责摄像机角度——导致 AI 重建过程缓慢且碎片化。 D4RT 的简化架构和创新的查询机制使其处于 4D 重建领域的最前沿,同时效率比先前方法提升高达 300 倍——快到足以在机器人、增强现实等场景中实现实时应用。 ## D4RT 的工作原理:基于查询的方法 D4RT 采用统一的编码器-解码器 Transformer 架构。编码器首先将输入视频处理为场景几何与运动的压缩表征。与使用独立模块处理不同任务的老旧系统不同,D4RT 通过围绕一个核心问题的灵活查询机制,仅计算所需信息: "视频中**给定的像素**在任意**时刻**,从**选定的摄像机**视角观察时,位于**三维空间**中的什么位置?" 基于我们之前的工作(https://srt-paper.github.io/),一个轻量级解码器随后查询这一表征,以回答该问题的具体实例。由于查询之间相互独立,它们可以在现代 AI 硬件上并行处理。这使得 D4RT 极快且可扩展,无论是追踪几个点还是重建整个场景。 D4RT 结合了强大的编码器——构建对视频丰富、全局的理解,以及轻量级解码器——并行回答数千个查询。通过提出具体问题——识别源像素在目标时刻和摄像机视角下的位置——模型通过单一、灵活的接口高效解决追踪、深度估计和姿态估计等多种任务。 ## 能力:快速、精准的 4D 理解 凭借这种灵活的公式化设计,该模型现在可以解决多种 4D 任务,包括: - **点追踪**:通过查询像素在不同时间步的位置,D4RT 可以预测其 3D 轨迹。重要的是,即使物体在视频的其他帧中不可见,模型仍能做出预测。 - **点云重建**:通过固定时间和摄像机视角,D4RT 可以直接生成场景的完整 3D 结构,省去了单独的摄像机估计或逐视频迭代优化等额外步骤。 - **摄像机姿态估计**:通过从不同视角生成并对齐同一时刻的 3D 快照,D4RT 可以轻松恢复摄像机的运动轨迹。 如底层技术报告(https://arxiv.org/abs/2512.08924)所述,D4RT 在广泛的 4D 重建任务中超越了先前的方法。定性比较显示,虽然其他方法在处理动态物体时表现挣扎——经常出现重复或完全无法重建的情况——D4RT 始终保持对运动世界稳固、连贯的理解。 关键的是,D4RT 的精度并未以牺牲效率为代价。在测试中,它比先前的最先进技术快了 18 到 300 倍。例如,D4RT 在单个 TPU 芯片上处理一分钟视频仅需约五秒。而先前的最先进技术完成同样任务可能需要十分钟——提升了 120 倍。 ## 下游应用 D4RT 证明,在 4D 重建中,我们无需在准确性和效率之间做出取舍。其灵活、基于查询的系统可以实时捕捉我们的动态世界,为下一代空间计算铺平道路。这包括: - **机器人**:机器人需要在有行人和移动物体的动态环境中导航。D4RT 可以提供安全导航和灵巧操作所需的空间感知能力。 - **增强现实(AR)**:AR 眼镜要将数字物体叠加到现实世界,需要对场景几何有即时、低延迟的理解。D4RT 的效率让设备端部署成为触手可及的现实。 - **世界模型**:通过有效分离摄像机运动、物体运动和静态几何,D4RT 让我们离拥有物理现实真正"世界模型"的 AI 更近一步——这是通往 AGI 道路上的必要一步。 我们将继续探索该模型的能力及其在机器人、增强现实等领域的应用潜力。 ### Gemini Robotics 1.5 将 AI 智能体带入物理世界 ### 推出 Veo 3.1 及高级创意功能 ### Genie 3:世界模型的新前沿

相似文章

4DThinker:利用 4D 意象进行动态空间理解

Hugging Face Daily Papers

4DThinker 是一个新框架,使视觉-语言模型能够利用 4D 潜在心理意象执行动态空间推理。该论文引入了可扩展的数据生成方法以及新颖的微调技术(包括 4D 强化学习),以提升模型在复杂动态任务上的性能。

让AI更像人类一样观察世界

Google DeepMind Blog

Google DeepMind在《自然》杂志发表了一篇论文,详细介绍了一种将AI视觉表征与人类认知结构对齐的方法,从而提升模型的鲁鲁棒性和可靠性。

TT4D:一种基于单目视频进行乒乓球4D重建的Pipeline与数据集

Hugging Face Daily Papers

本文介绍了TT4D,这是一种新颖的Pipeline和大规模数据集,旨在从单目视频中重建乒乓球比赛的4D场景。该方案采用独特的“先升维”策略,在进行时间分割之前,先估计乒乓球的3D轨迹和旋转,从而即使在存在遮挡的情况下也能实现稳健的重建。

Mind DeepResearch 技术报告

Hugging Face Daily Papers

# 论文页面 - Mind DeepResearch 技术报告 来源:[https://huggingface.co/papers/2604.14518](https://huggingface.co/papers/2604.14518) ## 摘要 MindDR 是一个高效的多智能体深度研究框架,通过协作式三智能体架构与专门设计的四阶段训练流程,在多个基准测试中取得优异成绩。我们提出 Mind DeepResearch(MindDR),一个高效的[多智能体深度研究框架](https://hug

利用AI绘制、建模和理解自然

Google DeepMind Blog

DeepMind宣布新的AI研究应用,用于保护自然,包括高分辨率森林砍伐风险模型、使用图神经网络进行物种分布映射,以及Perch生物声学模型的更新。