4DThinker：利用 4D 意象进行动态空间理解

Hugging Face Daily Papers 2026/05/07 00:00 论文

摘要

4DThinker 是一个新框架，使视觉-语言模型能够利用 4D 潜在心理意象执行动态空间推理。该论文引入了可扩展的数据生成方法以及新颖的微调技术（包括 4D 强化学习），以提升模型在复杂动态任务上的性能。

从单目视频进行动态空间推理对于连接视觉智能与物理世界至关重要，但对于视觉-语言模型（VLM）而言仍具有挑战性。先前的方法要么将时空推理完全转化为文本，这在处理复杂动态时本质上显得冗长且不精确；要么依赖外部几何模块，这增加了推理复杂性，却未能培养模型的内在能力。在本文中，我们提出了 4DThinker，这是第一个使 VLM 能够通过动态潜在心理意象“以 4D 思考”的框架，即在连续隐藏空间内部模拟场景的演变。具体而言，我们首先引入了一种可扩展的、无需标注的数据生成流程，从原始视频中合成 4D 推理数据。随后，我们提出了动态意象微调（Dynamic-Imagery Fine-Tuning, DIFT），通过联合监督文本标记和 4D 潜在变量，使模型扎根于动态视觉语义。在此基础上，4D 强化学习（4D Reinforcement Learning, 4DRL）进一步通过基于结果的奖励来处理复杂的推理任务，并将策略梯度限制在文本标记上以确保优化稳定。在多个动态空间推理基准上的广泛实验表明，4DThinker 持续优于强大的基线模型，并为 VLM 中的 4D 推理提供了新的视角。我们的代码发布于 https://github.com/zhangquanchen/4DThinker。

查看原文

查看缓存全文

缓存时间: 2026/05/11 02:43

论文页面 - 4DThinker：利用 4D 影像进行动态空间理解的思维

来源：https://huggingface.co/papers/2605.05997 发表于 5 月 7 日

由 https://huggingface.co/jankin123 提交

jankin (https://huggingface.co/jankin123) 于 5 月 11 日

#3 每日精选论文 (https://huggingface.co/papers/date/2026-05-11) 作者：

摘要

4DThinker 使视觉-语言模型能够通过 4D 潜在心理影像进行动态空间推理，其采用的可扩展数据生成和新型微调方法优于现有方法。

从单目视频中进行的动态空间推理 (https://huggingface.co/papers?q=Dynamic%20spatial%20reasoning) 对于连接视觉智能与物理世界至关重要，但对视觉-语言模型 (https://huggingface.co/papers?q=vision-language%20models)（VLMs）而言仍具有挑战性。以往的方法要么将时空推理完全转化为文本，这对于复杂的动态过程而言天生冗长且不精确；要么依赖外部几何模块，这虽然增加了推理复杂度，但并未培养模型的内在能力。在本文中，我们提出了 4DThinker，这是第一个使 VLM 能够通过动态潜在心理影像“以 4D 方式思考”的框架，即在连续的隐藏空间内部模拟场景的演变。具体而言，我们首先介绍了一种可扩展的、无需标注的数据生成流水线 (https://huggingface.co/papers?q=data%20generation%20pipeline)，用于从原始视频中合成 4D 推理 (https://huggingface.co/papers?q=4D%20reasoning) 数据。随后，我们提出了动态影像微调 (https://huggingface.co/papers?q=Dynamic-Imagery%20Fine-Tuning)（DIFT），该方法联合监督文本令牌 (https://huggingface.co/papers?q=textual%20tokens) 和 4D 潜在变量，使模型扎根于动态视觉语义中。在此基础上，4D 强化学习 (https://huggingface.co/papers?q=4D%20Reinforcement%20Learning)（4DRL）通过基于结果的奖励进一步解决复杂的推理任务，并将策略梯度 (https://huggingface.co/papers?q=policy%20gradients) 限制在文本令牌上以确保优化稳定性。在多个动态空间推理 (https://huggingface.co/papers?q=dynamic%20spatial%20reasoning) 基准上的广泛实验表明，4DThinker 始终优于强大的基线模型，并为 VLM 中的 4D 推理 (https://huggingface.co/papers?q=4D%20reasoning) 提供了新的视角。我们的代码可在 https://github.com/zhangquanchen/4DThinker 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2605.05997)查看 PDF (https://arxiv.org/pdf/2605.05997)GitHub8 (https://github.com/zhangquanchen/4DThinker)添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.05997)

在您的智能体中获取此论文：

hf papers read 2605\.05997

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接到此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.05997 即可在此页面进行链接。

引用此论文的数据集 0

没有链接到此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.05997 即可在此页面进行链接。

引用此论文的 Space 0

没有链接到此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.05997 即可在此页面进行链接。

包含此论文的收藏集 0

没有包含此论文的收藏集

将此论文添加到收藏集 (https://huggingface.co/new-collection) 即可在此页面进行链接。

4DThinker：利用 4D 意象进行动态空间理解

论文页面 - 4DThinker：利用 4D 影像进行动态空间理解的思维

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Space 0

包含此论文的收藏集 0

相似文章

D4RT：教会 AI 以四维视角观察世界

用想象力思考：基于世界模拟器的主动式视觉空间推理

物体能提供什么，而非它们是什么：用于可供性推理的功能潜在空间

Helix4D：复杂4D网格生成

用图像思考

提交意见反馈