推理，然后重新推理：跨视角回顾提升空间推理

Hugging Face Daily Papers 2026/06/10 00:00 论文

spatial-reasoning egocentric-video novel-view-synthesis training-free mllm geometry-to-video cross-view

摘要

一种无需训练的空间推理框架，它利用由预测3D几何生成的合成新视角视频，实现对自我中心视频中结论的重新审视。

从自我中心视频进行空间推理本质上具有挑战性，因为可观察的证据受到相机轨迹的限制。现有方法依赖单轮推理，迫使模型通过语义先验而非可验证证据来解决几何模糊性。我们认为空间推理应该是可重新审视的：在有限证据下形成的结论，当补充视点可用时，应保持开放以进行修正。基于这一见解，我们提出了“推理，然后重新推理”（ReRe），一种无需训练、推理时的两阶段框架：在推理阶段，多模态大语言模型（MLLM）从原始视频中形成空间假设；在重新推理阶段，它通过观察合成的新视角视频来验证或修正该假设。为了实现有效的跨视角回顾，我们设计了一个几何到视频流水线，从预测的3D几何中渲染具有战略互补性的新视角。这些视角具有抬高、倾斜的视角以及跨越场景的覆盖范围，同时保留了MLLM的原生视频接口，无需架构修改。在VSI-Bench和STI-Bench上的大量评估表明，ReRe显著提升了开源MLLM的性能，使其能够与专有的最先进模型相媲美。项目页面：https://zhenjiemao.github.io/ReRe/

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:38

论文页面 - 推理，再推理：跨视角复查提升空间推理能力

来源：https://huggingface.co/papers/2606.11683

摘要

一种无需训练的空间推理框架，用于第一人称视频，通过从预测的3D几何中合成新视角视频，实现对结论的重新审视。

从第一人称视频（https://huggingface.co/papers?q=egocentric%20videos）中进行空间推理（https://huggingface.co/papers?q=Spatial%20reasoning）本质上是困难的，因为可观测证据受到相机轨迹的限制。现有方法依赖单向推理，迫使模型通过语义先验而非可验证证据来解决几何歧义。我们认为，空间推理（https://huggingface.co/papers?q=spatial%20reasoning）应该是可复查的：在有限证据下形成的结论，在获得互补视角后应当保持被修正的空间。基于这一见解，我们提出了“推理，再推理”（ReRe），一种无需训练、仅在推理时运行的框架，包含两个阶段：在推理阶段，大语言多模态模型（MLLM）（https://huggingface.co/papers?q=MLLM）从原始视频形成空间假设（https://huggingface.co/papers?q=spatial%20hypothesis）；在再推理阶段，它通过观察合成的新视角视频（https://huggingface.co/papers?q=novel-view%20video）来验证或修正该假设。为了实现有效的跨视角复查（https://huggingface.co/papers?q=cross-view%20revisiting），我们设计了一个几何到视频（Geometry-to-Video）流水线（https://huggingface.co/papers?q=Geometry-to-Video%20pipeline），根据预测的3D几何（https://huggingface.co/papers?q=3D%20geometry）渲染出具有策略互补性的新视角。这些视角采用升高、倾斜的透视角度，覆盖场景全局，同时保留了MLLM（https://huggingface.co/papers?q=MLLM）的原生视频接口，无需修改模型架构。在VSI-Bench（https://huggingface.co/papers?q=VSI-Bench）和STI-Bench（https://huggingface.co/papers?q=STI-Bench）上的广泛评估表明，ReRe大幅提升了开源MLLM（https://huggingface.co/papers?q=MLLM）的性能，使其足以媲美专有模型的最新水平。项目页面：https://zhenjiemao.github.io/ReRe/

查看 arXiv 页面（https://arxiv.org/abs/2606.11683）查看 PDF（https://arxiv.org/pdf/2606.11683）项目页面（https://zhenjiemao.github.io/ReRe/）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.11683）

在您的智能体中获取本文：

hf papers read 2606.11683

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

尚无模型关联本文

请在模型 README.md 中引用 arxiv.org/abs/2606.11683 以关联到此页面。

引用本文的数据集0

尚无数据集关联本文

请在数据集 README.md 中引用 arxiv.org/abs/2606.11683 以关联到此页面。

引用本文的 Space0

尚无 Space 关联本文

请在 Space README.md 中引用 arxiv.org/abs/2606.11683 以关联到此页面。

推理，然后重新推理：跨视角回顾提升空间推理

论文页面 - 推理，再推理：跨视角复查提升空间推理能力

摘要

引用本文的模型0

引用本文的数据集0

引用本文的 Space0

包含本文的收藏1

相似文章

强化空间视觉语言模型中的双路径推理

用想象力思考：基于世界模拟器的主动式视觉空间推理

检索、整合与综合：空间-语义接地潜层视觉推理

质询的艺术：一致性增强空间推理中的事实性

SVoT: 基于强化学习的状态感知思维可视化空间推理

提交意见反馈