4DThinker:利用 4D 意象进行动态空间理解

Hugging Face Daily Papers 论文

摘要

4DThinker 是一个新框架,使视觉-语言模型能够利用 4D 潜在心理意象执行动态空间推理。该论文引入了可扩展的数据生成方法以及新颖的微调技术(包括 4D 强化学习),以提升模型在复杂动态任务上的性能。

从单目视频进行动态空间推理对于连接视觉智能与物理世界至关重要,但对于视觉-语言模型(VLM)而言仍具有挑战性。先前的方法要么将时空推理完全转化为文本,这在处理复杂动态时本质上显得冗长且不精确;要么依赖外部几何模块,这增加了推理复杂性,却未能培养模型的内在能力。在本文中,我们提出了 4DThinker,这是第一个使 VLM 能够通过动态潜在心理意象“以 4D 思考”的框架,即在连续隐藏空间内部模拟场景的演变。具体而言,我们首先引入了一种可扩展的、无需标注的数据生成流程,从原始视频中合成 4D 推理数据。随后,我们提出了动态意象微调(Dynamic-Imagery Fine-Tuning, DIFT),通过联合监督文本标记和 4D 潜在变量,使模型扎根于动态视觉语义。在此基础上,4D 强化学习(4D Reinforcement Learning, 4DRL)进一步通过基于结果的奖励来处理复杂的推理任务,并将策略梯度限制在文本标记上以确保优化稳定。在多个动态空间推理基准上的广泛实验表明,4DThinker 持续优于强大的基线模型,并为 VLM 中的 4D 推理提供了新的视角。我们的代码发布于 https://github.com/zhangquanchen/4DThinker。
查看原文
查看缓存全文

缓存时间: 2026/05/11 02:43

论文页面 - 4DThinker:利用 4D 影像进行动态空间理解的思维

来源:https://huggingface.co/papers/2605.05997 发表于 5 月 7 日

·

由 https://huggingface.co/jankin123 提交

jankin (https://huggingface.co/jankin123) 于 5 月 11 日

#3 每日精选论文 (https://huggingface.co/papers/date/2026-05-11) 作者:

,

,

,

,

,

,

,

,

,

,

摘要

4DThinker 使视觉-语言模型能够通过 4D 潜在心理影像进行动态空间推理,其采用的可扩展数据生成和新型微调方法优于现有方法。

从单目视频中进行的动态空间推理 (https://huggingface.co/papers?q=Dynamic%20spatial%20reasoning) 对于连接视觉智能与物理世界至关重要,但对视觉-语言模型 (https://huggingface.co/papers?q=vision-language%20models)(VLMs)而言仍具有挑战性。以往的方法要么将时空推理完全转化为文本,这对于复杂的动态过程而言天生冗长且不精确;要么依赖外部几何模块,这虽然增加了推理复杂度,但并未培养模型的内在能力。在本文中,我们提出了 4DThinker,这是第一个使 VLM 能够通过动态潜在心理影像“以 4D 方式思考”的框架,即在连续的隐藏空间内部模拟场景的演变。具体而言,我们首先介绍了一种可扩展的、无需标注的数据生成流水线 (https://huggingface.co/papers?q=data%20generation%20pipeline),用于从原始视频中合成 4D 推理 (https://huggingface.co/papers?q=4D%20reasoning) 数据。随后,我们提出了动态影像微调 (https://huggingface.co/papers?q=Dynamic-Imagery%20Fine-Tuning)(DIFT),该方法联合监督文本令牌 (https://huggingface.co/papers?q=textual%20tokens) 和 4D 潜在变量,使模型扎根于动态视觉语义中。在此基础上,4D 强化学习 (https://huggingface.co/papers?q=4D%20Reinforcement%20Learning)(4DRL)通过基于结果的奖励进一步解决复杂的推理任务,并将策略梯度 (https://huggingface.co/papers?q=policy%20gradients) 限制在文本令牌上以确保优化稳定性。在多个动态空间推理 (https://huggingface.co/papers?q=dynamic%20spatial%20reasoning) 基准上的广泛实验表明,4DThinker 始终优于强大的基线模型,并为 VLM 中的 4D 推理 (https://huggingface.co/papers?q=4D%20reasoning) 提供了新的视角。我们的代码可在 https://github.com/zhangquanchen/4DThinker 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2605.05997)查看 PDF (https://arxiv.org/pdf/2605.05997)GitHub8 (https://github.com/zhangquanchen/4DThinker)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.05997)

在您的智能体中获取此论文:

hf papers read 2605\.05997

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.05997 即可在此页面进行链接。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.05997 即可在此页面进行链接。

引用此论文的 Space 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.05997 即可在此页面进行链接。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可在此页面进行链接。

相似文章

D4RT:教会 AI 以四维视角观察世界

Google DeepMind Blog

DeepMind 推出 D4RT,一个统一的 AI 模型,用于动态 4D 场景重建与追踪,效率较此前方法提升高达 300 倍。该模型采用基于查询的 Transformer 架构,为机器人技术与 AR 应用解决复杂的空间和时序任务。

物体能提供什么,而非它们是什么:用于可供性推理的功能潜在空间

arXiv cs.LG

本文介绍了A4D,一个将视觉观察映射到围绕可供性(例如“可移动”)构建的共享潜在空间中的框架,用于机器人规划。它在现有可供性上实现了94%的推理准确率,比现有最优方法高出15%,并且实现了100倍的推理速度提升,对未见过的物体功能具有更强的泛化能力。

Helix4D:复杂4D网格生成

Hugging Face Daily Papers

Helix4D 提出了一种从视频生成高质量动态4D网格的框架,通过扩展Trellis2,引入跨帧注意力机制和4D时间编码,在不增加参数的情况下重新利用冗余的空间RoPE频带,从而实现这一目标。

用图像思考

OpenAI Blog

OpenAI 发布了 o3 和 o4-mini 模型,这些模型能够在链式思维过程中对图像进行推理,通过裁剪和缩放等原生图像操作工具实现视觉理解,无需额外的专用模型。这些模型在包括 STEM 问题、图表阅读和视觉搜索任务在内的多模态基准上达到了最先进的性能。