4DThinker:利用 4D 意象进行动态空间理解
摘要
4DThinker 是一个新框架,使视觉-语言模型能够利用 4D 潜在心理意象执行动态空间推理。该论文引入了可扩展的数据生成方法以及新颖的微调技术(包括 4D 强化学习),以提升模型在复杂动态任务上的性能。
查看缓存全文
缓存时间: 2026/05/11 02:43
论文页面 - 4DThinker:利用 4D 影像进行动态空间理解的思维
来源:https://huggingface.co/papers/2605.05997 发表于 5 月 7 日
·
由 https://huggingface.co/jankin123 提交
jankin (https://huggingface.co/jankin123) 于 5 月 11 日
#3 每日精选论文 (https://huggingface.co/papers/date/2026-05-11) 作者:
,
,
,
,
,
,
,
,
,
,
摘要
4DThinker 使视觉-语言模型能够通过 4D 潜在心理影像进行动态空间推理,其采用的可扩展数据生成和新型微调方法优于现有方法。
从单目视频中进行的动态空间推理 (https://huggingface.co/papers?q=Dynamic%20spatial%20reasoning) 对于连接视觉智能与物理世界至关重要,但对视觉-语言模型 (https://huggingface.co/papers?q=vision-language%20models)(VLMs)而言仍具有挑战性。以往的方法要么将时空推理完全转化为文本,这对于复杂的动态过程而言天生冗长且不精确;要么依赖外部几何模块,这虽然增加了推理复杂度,但并未培养模型的内在能力。在本文中,我们提出了 4DThinker,这是第一个使 VLM 能够通过动态潜在心理影像“以 4D 方式思考”的框架,即在连续的隐藏空间内部模拟场景的演变。具体而言,我们首先介绍了一种可扩展的、无需标注的数据生成流水线 (https://huggingface.co/papers?q=data%20generation%20pipeline),用于从原始视频中合成 4D 推理 (https://huggingface.co/papers?q=4D%20reasoning) 数据。随后,我们提出了动态影像微调 (https://huggingface.co/papers?q=Dynamic-Imagery%20Fine-Tuning)(DIFT),该方法联合监督文本令牌 (https://huggingface.co/papers?q=textual%20tokens) 和 4D 潜在变量,使模型扎根于动态视觉语义中。在此基础上,4D 强化学习 (https://huggingface.co/papers?q=4D%20Reinforcement%20Learning)(4DRL)通过基于结果的奖励进一步解决复杂的推理任务,并将策略梯度 (https://huggingface.co/papers?q=policy%20gradients) 限制在文本令牌上以确保优化稳定性。在多个动态空间推理 (https://huggingface.co/papers?q=dynamic%20spatial%20reasoning) 基准上的广泛实验表明,4DThinker 始终优于强大的基线模型,并为 VLM 中的 4D 推理 (https://huggingface.co/papers?q=4D%20reasoning) 提供了新的视角。我们的代码可在 https://github.com/zhangquanchen/4DThinker 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2605.05997)查看 PDF (https://arxiv.org/pdf/2605.05997)GitHub8 (https://github.com/zhangquanchen/4DThinker)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.05997)
在您的智能体中获取此论文:
hf papers read 2605\.05997
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接到此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.05997 即可在此页面进行链接。
引用此论文的数据集 0
没有链接到此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.05997 即可在此页面进行链接。
引用此论文的 Space 0
没有链接到此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.05997 即可在此页面进行链接。
包含此论文的收藏集 0
没有包含此论文的收藏集
将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可在此页面进行链接。
相似文章
D4RT:教会 AI 以四维视角观察世界
DeepMind 推出 D4RT,一个统一的 AI 模型,用于动态 4D 场景重建与追踪,效率较此前方法提升高达 300 倍。该模型采用基于查询的 Transformer 架构,为机器人技术与 AR 应用解决复杂的空间和时序任务。
用想象力思考:基于世界模拟器的主动式视觉空间推理
本文提出了Astra,一个主动式空间推理框架,将经过强化学习训练的VLM策略与一个世界模拟器结合起来,生成新视角的观察结果,以改进视觉语言模型中的空间推理能力。
物体能提供什么,而非它们是什么:用于可供性推理的功能潜在空间
本文介绍了A4D,一个将视觉观察映射到围绕可供性(例如“可移动”)构建的共享潜在空间中的框架,用于机器人规划。它在现有可供性上实现了94%的推理准确率,比现有最优方法高出15%,并且实现了100倍的推理速度提升,对未见过的物体功能具有更强的泛化能力。
Helix4D:复杂4D网格生成
Helix4D 提出了一种从视频生成高质量动态4D网格的框架,通过扩展Trellis2,引入跨帧注意力机制和4D时间编码,在不增加参数的情况下重新利用冗余的空间RoPE频带,从而实现这一目标。
用图像思考
OpenAI 发布了 o3 和 o4-mini 模型,这些模型能够在链式思维过程中对图像进行推理,通过裁剪和缩放等原生图像操作工具实现视觉理解,无需额外的专用模型。这些模型在包括 STEM 问题、图表阅读和视觉搜索任务在内的多模态基准上达到了最先进的性能。