强化空间视觉语言模型中的双路径推理

Hugging Face Daily Papers 论文

摘要

本文介绍了SR-REAL,一个统一的空间视觉语言模型框架,通过强化学习结合了语言推理和三维几何推理,使得模型能够在多种任务中实现稳健的多步空间推理。

空间视觉语言模型在几何感知方面取得了显著进展,但涉及深度、距离和场景关系的多步推理仍然具有挑战性。此外,不同的空间查询需要根本不同的策略:有些最好通过纯语言的逐步演绎来处理,而另一些则需要先进行显式的三维定位,再进行定量推理。我们提出了基于强化学习的空间视觉语言模型双路径空间推理(SR-REAL),这是一个统一的框架,为空间VLM配备了两种互补的推理路径:纯语言推理(LOR),执行逐步的语言演绎;以及检测-然后推理(DTR),通过区域标记检测三维几何线索(例如中心点或边界框),再进行显式的几何推理。SR-REAL首先经过冷启动的监督微调阶段,构建LOR和DTR的思维链监督,并暴露出区域到三维的接口;随后通过强化学习,利用准确性和格式奖励优化策略模型;对于DTR,进一步通过离散的中心点检测奖励来精化几何对齐。在多种空间基准测试中,SR-REAL显著优于空间VLM基线:(i)单个经过RL训练的模型支持两种推理路径,其中DTR通过精确的三维定位在区域感知任务中表现优异,而LOR增强了通用空间推理能力;(ii)联合训练两条路径能促进相互强化;(iii)高质量且混合的冷启动数据对于稳定的RL优化至关重要;(iv)该模型无需针对每个任务进行调整即可跨数据集和领域泛化,展示了LOR与DTR之间的正迁移效应。
查看原文
查看缓存全文

缓存时间: 2026/06/18 07:55

论文页面 - 强化空间视觉语言模型中的双路径推理

来源:https://huggingface.co/papers/2606.17539 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

一个统一的空间视觉语言模型框架,通过强化学习将语言推理与3D几何推理相结合,能够在不同任务和领域中实现稳健的空间推理。

空间视觉语言模型(Spatial VLMs)(https://huggingface.co/papers?q=Spatial%20VLMs)在几何感知方面取得了显著进展,但涉及深度、距离和场景关系的多步推理的复杂空间推理仍然具有挑战性。此外,不同的空间查询需要根本不同的策略:有些最适合通过纯语言、逐步推理来解决,而另一些则需要在进行定量推理之前进行显式的3D定位。我们提出了SR‑REAL(面向空间视觉语言模型的强化学习双路径空间推理),这是一个统一框架,为目标空间VLM配备了两种互补的推理路径:纯语言推理(Language-Only Reasoning,LOR)(https://huggingface.co/papers?q=Language-Only%20Reasoning),执行逐步语言演绎;以及先检测后推理(Detect-Then-Reason,DTR)(https://huggingface.co/papers?q=Detect-Then-Reason),它先通过区域标记(region tokens)(https://huggingface.co/papers?q=region%20tokens)检测3D几何线索(3D geometric cues)(https://huggingface.co/papers?q=3D%20geometric%20cues)(如中心点或边界框),再进行显式几何推理。SR‑REAL首先进行冷启动监督微调(cold-start supervised fine-tuning)(https://huggingface.co/papers?q=cold-start%20supervised%20fine-tuning)阶段,构建LOR和DTR的思维链监督(chain-of-thought supervision)(https://huggingface.co/papers?q=chain-of-thought%20supervision),并建立区域到3D的接口;随后通过强化学习以准确率奖励和格式奖励(format rewards)(https://huggingface.co/papers?q=format%20rewards)优化策略模型(policy model)(https://huggingface.co/papers?q=policy%20model);对于DTR,额外的离散中心点检测奖励(discrete center-based detection)(https://huggingface.co/papers?q=discrete%20center-based%20detection)进一步细化几何对齐(geometric alignment)(https://huggingface.co/papers?q=geometric%20alignment)。在多个空间基准测试中,SR‑REAL显著优于空间VLM基线:(i)单个经过RL训练的模型即可支持两种推理路径,其中DTR通过精准的3D定位在区域感知任务中表现优异,而LOR则增强了通用空间推理能力;(ii)联合训练两条路径能够促进相互增强;(iii)高质量的混合冷启动数据对于稳定的RL优化至关重要;(iv)该模型无需针对每项任务调优即可跨数据集和领域泛化,展现了LOR与DTR之间的正迁移(positive transfer)(https://huggingface.co/papers?q=positive%20transfer)。

查看arXiv页面(https://arxiv.org/abs/2606.17539)下载PDF(https://arxiv.org/pdf/2606.17539)项目页面(https://sr-real.github.io/)GitHub3(https://github.com/jiyt17/SR-REAL)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.17539)

在你的智能体中获取这篇论文:

hf papers read 2606.17539

没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

尚无模型链接本论文

请在模型 README.md 中引用 arxiv.org/abs/2606.17539 以在此页面显示链接。

引用本论文的数据集0

尚无数据集链接本论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.17539 以在此页面显示链接。

引用本论文的Spaces0

尚无Space链接本论文

请在Space README.md 中引用 arxiv.org/abs/2606.17539 以在此页面显示链接。

包含本论文的收藏0

尚无收藏包含本论文

请将本论文添加到收藏(https://huggingface.co/new-collection)中以在此页面显示链接。

相似文章

检索、整合与综合:空间-语义接地潜层视觉推理

arXiv cs.CL

本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。

SVoT: 基于强化学习的状态感知思维可视化空间推理

arXiv cs.AI

论文提出了SVoT,一种用于多模态大语言模型(MLLMs)中多跳空间推理的强化学习框架,该框架生成交错、可验证的中间状态和可视化,在涉及多对象交互和数值推理的新基准测试上取得了显著的准确性提升。