推理,然后重新推理:跨视角回顾提升空间推理

Hugging Face Daily Papers 论文

摘要

一种无需训练的空间推理框架,它利用由预测3D几何生成的合成新视角视频,实现对自我中心视频中结论的重新审视。

从自我中心视频进行空间推理本质上具有挑战性,因为可观察的证据受到相机轨迹的限制。现有方法依赖单轮推理,迫使模型通过语义先验而非可验证证据来解决几何模糊性。我们认为空间推理应该是可重新审视的:在有限证据下形成的结论,当补充视点可用时,应保持开放以进行修正。基于这一见解,我们提出了“推理,然后重新推理”(ReRe),一种无需训练、推理时的两阶段框架:在推理阶段,多模态大语言模型(MLLM)从原始视频中形成空间假设;在重新推理阶段,它通过观察合成的新视角视频来验证或修正该假设。为了实现有效的跨视角回顾,我们设计了一个几何到视频流水线,从预测的3D几何中渲染具有战略互补性的新视角。这些视角具有抬高、倾斜的视角以及跨越场景的覆盖范围,同时保留了MLLM的原生视频接口,无需架构修改。在VSI-Bench和STI-Bench上的大量评估表明,ReRe显著提升了开源MLLM的性能,使其能够与专有的最先进模型相媲美。项目页面:https://zhenjiemao.github.io/ReRe/
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:38

论文页面 - 推理,再推理:跨视角复查提升空间推理能力

来源:https://huggingface.co/papers/2606.11683

摘要

一种无需训练的空间推理框架,用于第一人称视频,通过从预测的3D几何中合成新视角视频,实现对结论的重新审视。

从第一人称视频(https://huggingface.co/papers?q=egocentric%20videos)中进行空间推理(https://huggingface.co/papers?q=Spatial%20reasoning)本质上是困难的,因为可观测证据受到相机轨迹的限制。现有方法依赖单向推理,迫使模型通过语义先验而非可验证证据来解决几何歧义。我们认为,空间推理(https://huggingface.co/papers?q=spatial%20reasoning)应该是可复查的:在有限证据下形成的结论,在获得互补视角后应当保持被修正的空间。基于这一见解,我们提出了“推理,再推理”(ReRe),一种无需训练、仅在推理时运行的框架,包含两个阶段:在推理阶段,大语言多模态模型(MLLM)(https://huggingface.co/papers?q=MLLM)从原始视频形成空间假设(https://huggingface.co/papers?q=spatial%20hypothesis);在再推理阶段,它通过观察合成的新视角视频(https://huggingface.co/papers?q=novel-view%20video)来验证或修正该假设。为了实现有效的跨视角复查(https://huggingface.co/papers?q=cross-view%20revisiting),我们设计了一个几何到视频(Geometry-to-Video)流水线(https://huggingface.co/papers?q=Geometry-to-Video%20pipeline),根据预测的3D几何(https://huggingface.co/papers?q=3D%20geometry)渲染出具有策略互补性的新视角。这些视角采用升高、倾斜的透视角度,覆盖场景全局,同时保留了MLLM(https://huggingface.co/papers?q=MLLM)的原生视频接口,无需修改模型架构。在VSI-Bench(https://huggingface.co/papers?q=VSI-Bench)和STI-Bench(https://huggingface.co/papers?q=STI-Bench)上的广泛评估表明,ReRe大幅提升了开源MLLM(https://huggingface.co/papers?q=MLLM)的性能,使其足以媲美专有模型的最新水平。项目页面:https://zhenjiemao.github.io/ReRe/

查看 arXiv 页面(https://arxiv.org/abs/2606.11683)查看 PDF(https://arxiv.org/pdf/2606.11683)项目页面(https://zhenjiemao.github.io/ReRe/)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.11683)

在您的智能体中获取本文:

hf papers read 2606.11683

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本文的模型0

尚无模型关联本文

请在模型 README.md 中引用 arxiv.org/abs/2606.11683 以关联到此页面。

引用本文的数据集0

尚无数据集关联本文

请在数据集 README.md 中引用 arxiv.org/abs/2606.11683 以关联到此页面。

引用本文的 Space0

尚无 Space 关联本文

请在 Space README.md 中引用 arxiv.org/abs/2606.11683 以关联到此页面。

包含本文的收藏1

相似文章

强化空间视觉语言模型中的双路径推理

Hugging Face Daily Papers

本文介绍了SR-REAL,一个统一的空间视觉语言模型框架,通过强化学习结合了语言推理和三维几何推理,使得模型能够在多种任务中实现稳健的多步空间推理。

检索、整合与综合:空间-语义接地潜层视觉推理

arXiv cs.CL

本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。

质询的艺术:一致性增强空间推理中的事实性

arXiv cs.AI

本文提出一种自监督强化学习框架,利用一致性验证器(检查变换下几何和语义一致性的奖励函数)来提升大型推理模型的空间推理能力,无需真实标注。该方法接近监督微调的准确率,并能泛化到多种任务。

SVoT: 基于强化学习的状态感知思维可视化空间推理

arXiv cs.AI

论文提出了SVoT,一种用于多模态大语言模型(MLLMs)中多跳空间推理的强化学习框架,该框架生成交错、可验证的中间状态和可视化,在涉及多对象交互和数值推理的新基准测试上取得了显著的准确性提升。