强化空间视觉语言模型中的双路径推理

Hugging Face Daily Papers 2026/06/16 00:00 论文

摘要

本文介绍了SR-REAL，一个统一的空间视觉语言模型框架，通过强化学习结合了语言推理和三维几何推理，使得模型能够在多种任务中实现稳健的多步空间推理。

空间视觉语言模型在几何感知方面取得了显著进展，但涉及深度、距离和场景关系的多步推理仍然具有挑战性。此外，不同的空间查询需要根本不同的策略：有些最好通过纯语言的逐步演绎来处理，而另一些则需要先进行显式的三维定位，再进行定量推理。我们提出了基于强化学习的空间视觉语言模型双路径空间推理（SR-REAL），这是一个统一的框架，为空间VLM配备了两种互补的推理路径：纯语言推理（LOR），执行逐步的语言演绎；以及检测-然后推理（DTR），通过区域标记检测三维几何线索（例如中心点或边界框），再进行显式的几何推理。SR-REAL首先经过冷启动的监督微调阶段，构建LOR和DTR的思维链监督，并暴露出区域到三维的接口；随后通过强化学习，利用准确性和格式奖励优化策略模型；对于DTR，进一步通过离散的中心点检测奖励来精化几何对齐。在多种空间基准测试中，SR-REAL显著优于空间VLM基线：（i）单个经过RL训练的模型支持两种推理路径，其中DTR通过精确的三维定位在区域感知任务中表现优异，而LOR增强了通用空间推理能力；（ii）联合训练两条路径能促进相互强化；（iii）高质量且混合的冷启动数据对于稳定的RL优化至关重要；（iv）该模型无需针对每个任务进行调整即可跨数据集和领域泛化，展示了LOR与DTR之间的正迁移效应。

查看原文

查看缓存全文

缓存时间: 2026/06/18 07:55

论文页面 - 强化空间视觉语言模型中的双路径推理

来源：https://huggingface.co/papers/2606.17539 作者：

摘要

一个统一的空间视觉语言模型框架，通过强化学习将语言推理与3D几何推理相结合，能够在不同任务和领域中实现稳健的空间推理。

空间视觉语言模型（Spatial VLMs）（https://huggingface.co/papers?q=Spatial%20VLMs）在几何感知方面取得了显著进展，但涉及深度、距离和场景关系的多步推理的复杂空间推理仍然具有挑战性。此外，不同的空间查询需要根本不同的策略：有些最适合通过纯语言、逐步推理来解决，而另一些则需要在进行定量推理之前进行显式的3D定位。我们提出了SR‑REAL（面向空间视觉语言模型的强化学习双路径空间推理），这是一个统一框架，为目标空间VLM配备了两种互补的推理路径：纯语言推理（Language-Only Reasoning，LOR）（https://huggingface.co/papers?q=Language-Only%20Reasoning），执行逐步语言演绎；以及先检测后推理（Detect-Then-Reason，DTR）（https://huggingface.co/papers?q=Detect-Then-Reason），它先通过区域标记（region tokens）（https://huggingface.co/papers?q=region%20tokens）检测3D几何线索（3D geometric cues）（https://huggingface.co/papers?q=3D%20geometric%20cues）（如中心点或边界框），再进行显式几何推理。SR‑REAL首先进行冷启动监督微调（cold-start supervised fine-tuning）（https://huggingface.co/papers?q=cold-start%20supervised%20fine-tuning）阶段，构建LOR和DTR的思维链监督（chain-of-thought supervision）（https://huggingface.co/papers?q=chain-of-thought%20supervision），并建立区域到3D的接口；随后通过强化学习以准确率奖励和格式奖励（format rewards）（https://huggingface.co/papers?q=format%20rewards）优化策略模型（policy model）（https://huggingface.co/papers?q=policy%20model）；对于DTR，额外的离散中心点检测奖励（discrete center-based detection）（https://huggingface.co/papers?q=discrete%20center-based%20detection）进一步细化几何对齐（geometric alignment）（https://huggingface.co/papers?q=geometric%20alignment）。在多个空间基准测试中，SR‑REAL显著优于空间VLM基线：（i）单个经过RL训练的模型即可支持两种推理路径，其中DTR通过精准的3D定位在区域感知任务中表现优异，而LOR则增强了通用空间推理能力；（ii）联合训练两条路径能够促进相互增强；（iii）高质量的混合冷启动数据对于稳定的RL优化至关重要；（iv）该模型无需针对每项任务调优即可跨数据集和领域泛化，展现了LOR与DTR之间的正迁移（positive transfer）（https://huggingface.co/papers?q=positive%20transfer）。

查看arXiv页面（https://arxiv.org/abs/2606.17539）下载PDF（https://arxiv.org/pdf/2606.17539）项目页面（https://sr-real.github.io/）GitHub3（https://github.com/jiyt17/SR-REAL）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.17539）

在你的智能体中获取这篇论文：

hf papers read 2606.17539

没有最新的CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用本论文的模型0

尚无模型链接本论文

请在模型 README.md 中引用 arxiv.org/abs/2606.17539 以在此页面显示链接。

引用本论文的数据集0

尚无数据集链接本论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.17539 以在此页面显示链接。

引用本论文的Spaces0

尚无Space链接本论文

请在Space README.md 中引用 arxiv.org/abs/2606.17539 以在此页面显示链接。

包含本论文的收藏0

尚无收藏包含本论文

请将本论文添加到收藏（https://huggingface.co/new-collection）中以在此页面显示链接。

强化空间视觉语言模型中的双路径推理

论文页面 - 强化空间视觉语言模型中的双路径推理

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的Spaces0

包含本论文的收藏0

相似文章

检索、整合与综合：空间-语义接地潜层视觉推理

推理，然后重新推理：跨视角回顾提升空间推理

SVoT: 基于强化学习的状态感知思维可视化空间推理

基于大型视觉-语言模型利用遥感影像进行建成环境推理

用想象力思考：基于世界模拟器的主动式视觉空间推理

提交意见反馈