D4RT：教会 AI 以四维视角观察世界

Google DeepMind Blog 2026/01/16 10:39 模型

deepmind 4d-reconstruction computer-vision ai-model scene-tracking robotics

摘要

DeepMind 推出 D4RT，一个统一的 AI 模型，用于动态 4D 场景重建与追踪，效率较此前方法提升高达 300 倍。该模型采用基于查询的 Transformer 架构，为机器人技术与 AR 应用解决复杂的空间和时序任务。

D4RT：统一且高效的 4D 重建与追踪，速度较先前方法提升高达 300 倍。

查看缓存全文

缓存时间: 2026/05/08 09:22

# D4RT：教 AI 以四维视角观察世界来源：https://deepmind.google/blog/d4rt-teaching-ai-to-see-the-world-in-four-dimensions/ 2026 年 1 月 22 日 | 研究我们隆重推出 D4RT，这是一个统一的 AI 模型，能够在空间和时间维度上实现 4D 场景重建与追踪。每当我们观察世界时，都在完成一项非凡的记忆与预测壮举。我们能看到并理解事物在某一时刻的状态、片刻之前的状态，以及接下来将要呈现的状态。我们内心对世界的模型维持着对现实的持续表征，并借助这一模型直观推断过去、现在与未来之间的因果关系。为了让机器更像人类一样观察世界，我们可以为它们配备摄像头，但这仅解决了输入问题。要理解这些输入，计算机必须解决一个复杂的逆问题：将视频——即一系列二维平面投影——还原或理解为丰富、立体的三维动态世界。今天，我们正式推出 D4RT（Dynamic 4D Reconstruction and Tracking，动态 4D 重建与追踪）（https://d4rt-paper.github.io/），这是一个全新的 AI 模型，将动态场景重建整合到单一、高效的框架中，让我们更接近人工智能的下一个前沿：对我们动态现实的全面感知。 ## 第四维度的挑战为了让 AI 模型理解二维视频中的动态场景，它必须追踪每个物体的每一个像素，随着它们在三维空间和第四维时间中移动。此外，它还必须将物体的运动与摄像机的运动分离开来，即使在物体相互遮挡或完全离开画面时，仍保持连贯的表征。传统上，从二维视频中捕捉这种级别的几何与运动信息，需要计算密集型的流程，或者拼凑多个专用 AI 模型——有的负责深度，有的负责运动，还有的负责摄像机角度——导致 AI 重建过程缓慢且碎片化。 D4RT 的简化架构和创新的查询机制使其处于 4D 重建领域的最前沿，同时效率比先前方法提升高达 300 倍——快到足以在机器人、增强现实等场景中实现实时应用。 ## D4RT 的工作原理：基于查询的方法 D4RT 采用统一的编码器-解码器 Transformer 架构。编码器首先将输入视频处理为场景几何与运动的压缩表征。与使用独立模块处理不同任务的老旧系统不同，D4RT 通过围绕一个核心问题的灵活查询机制，仅计算所需信息： "视频中**给定的像素**在任意**时刻**，从**选定的摄像机**视角观察时，位于**三维空间**中的什么位置？" 基于我们之前的工作（https://srt-paper.github.io/），一个轻量级解码器随后查询这一表征，以回答该问题的具体实例。由于查询之间相互独立，它们可以在现代 AI 硬件上并行处理。这使得 D4RT 极快且可扩展，无论是追踪几个点还是重建整个场景。 D4RT 结合了强大的编码器——构建对视频丰富、全局的理解，以及轻量级解码器——并行回答数千个查询。通过提出具体问题——识别源像素在目标时刻和摄像机视角下的位置——模型通过单一、灵活的接口高效解决追踪、深度估计和姿态估计等多种任务。 ## 能力：快速、精准的 4D 理解凭借这种灵活的公式化设计，该模型现在可以解决多种 4D 任务，包括： - **点追踪**：通过查询像素在不同时间步的位置，D4RT 可以预测其 3D 轨迹。重要的是，即使物体在视频的其他帧中不可见，模型仍能做出预测。 - **点云重建**：通过固定时间和摄像机视角，D4RT 可以直接生成场景的完整 3D 结构，省去了单独的摄像机估计或逐视频迭代优化等额外步骤。 - **摄像机姿态估计**：通过从不同视角生成并对齐同一时刻的 3D 快照，D4RT 可以轻松恢复摄像机的运动轨迹。如底层技术报告（https://arxiv.org/abs/2512.08924）所述，D4RT 在广泛的 4D 重建任务中超越了先前的方法。定性比较显示，虽然其他方法在处理动态物体时表现挣扎——经常出现重复或完全无法重建的情况——D4RT 始终保持对运动世界稳固、连贯的理解。关键的是，D4RT 的精度并未以牺牲效率为代价。在测试中，它比先前的最先进技术快了 18 到 300 倍。例如，D4RT 在单个 TPU 芯片上处理一分钟视频仅需约五秒。而先前的最先进技术完成同样任务可能需要十分钟——提升了 120 倍。 ## 下游应用 D4RT 证明，在 4D 重建中，我们无需在准确性和效率之间做出取舍。其灵活、基于查询的系统可以实时捕捉我们的动态世界，为下一代空间计算铺平道路。这包括： - **机器人**：机器人需要在有行人和移动物体的动态环境中导航。D4RT 可以提供安全导航和灵巧操作所需的空间感知能力。 - **增强现实（AR）**：AR 眼镜要将数字物体叠加到现实世界，需要对场景几何有即时、低延迟的理解。D4RT 的效率让设备端部署成为触手可及的现实。 - **世界模型**：通过有效分离摄像机运动、物体运动和静态几何，D4RT 让我们离拥有物理现实真正"世界模型"的 AI 更近一步——这是通往 AGI 道路上的必要一步。我们将继续探索该模型的能力及其在机器人、增强现实等领域的应用潜力。 ### Gemini Robotics 1.5 将 AI 智能体带入物理世界 ### 推出 Veo 3.1 及高级创意功能 ### Genie 3：世界模型的新前沿

D4RT：教会 AI 以四维视角观察世界

相似文章

4DThinker：利用 4D 意象进行动态空间理解

让AI更像人类一样观察世界

TT4D：一种基于单目视频进行乒乓球4D重建的Pipeline与数据集

Mind DeepResearch 技术报告

利用AI绘制、建模和理解自然

提交意见反馈