强化空间视觉语言模型中的双路径推理
摘要
本文介绍了SR-REAL,一个统一的空间视觉语言模型框架,通过强化学习结合了语言推理和三维几何推理,使得模型能够在多种任务中实现稳健的多步空间推理。
查看缓存全文
缓存时间: 2026/06/18 07:55
论文页面 - 强化空间视觉语言模型中的双路径推理
来源:https://huggingface.co/papers/2606.17539 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
一个统一的空间视觉语言模型框架,通过强化学习将语言推理与3D几何推理相结合,能够在不同任务和领域中实现稳健的空间推理。
空间视觉语言模型(Spatial VLMs)(https://huggingface.co/papers?q=Spatial%20VLMs)在几何感知方面取得了显著进展,但涉及深度、距离和场景关系的多步推理的复杂空间推理仍然具有挑战性。此外,不同的空间查询需要根本不同的策略:有些最适合通过纯语言、逐步推理来解决,而另一些则需要在进行定量推理之前进行显式的3D定位。我们提出了SR‑REAL(面向空间视觉语言模型的强化学习双路径空间推理),这是一个统一框架,为目标空间VLM配备了两种互补的推理路径:纯语言推理(Language-Only Reasoning,LOR)(https://huggingface.co/papers?q=Language-Only%20Reasoning),执行逐步语言演绎;以及先检测后推理(Detect-Then-Reason,DTR)(https://huggingface.co/papers?q=Detect-Then-Reason),它先通过区域标记(region tokens)(https://huggingface.co/papers?q=region%20tokens)检测3D几何线索(3D geometric cues)(https://huggingface.co/papers?q=3D%20geometric%20cues)(如中心点或边界框),再进行显式几何推理。SR‑REAL首先进行冷启动监督微调(cold-start supervised fine-tuning)(https://huggingface.co/papers?q=cold-start%20supervised%20fine-tuning)阶段,构建LOR和DTR的思维链监督(chain-of-thought supervision)(https://huggingface.co/papers?q=chain-of-thought%20supervision),并建立区域到3D的接口;随后通过强化学习以准确率奖励和格式奖励(format rewards)(https://huggingface.co/papers?q=format%20rewards)优化策略模型(policy model)(https://huggingface.co/papers?q=policy%20model);对于DTR,额外的离散中心点检测奖励(discrete center-based detection)(https://huggingface.co/papers?q=discrete%20center-based%20detection)进一步细化几何对齐(geometric alignment)(https://huggingface.co/papers?q=geometric%20alignment)。在多个空间基准测试中,SR‑REAL显著优于空间VLM基线:(i)单个经过RL训练的模型即可支持两种推理路径,其中DTR通过精准的3D定位在区域感知任务中表现优异,而LOR则增强了通用空间推理能力;(ii)联合训练两条路径能够促进相互增强;(iii)高质量的混合冷启动数据对于稳定的RL优化至关重要;(iv)该模型无需针对每项任务调优即可跨数据集和领域泛化,展现了LOR与DTR之间的正迁移(positive transfer)(https://huggingface.co/papers?q=positive%20transfer)。
查看arXiv页面(https://arxiv.org/abs/2606.17539)下载PDF(https://arxiv.org/pdf/2606.17539)项目页面(https://sr-real.github.io/)GitHub3(https://github.com/jiyt17/SR-REAL)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.17539)
在你的智能体中获取这篇论文:
hf papers read 2606.17539
没有最新的CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用本论文的模型0
尚无模型链接本论文
请在模型 README.md 中引用 arxiv.org/abs/2606.17539 以在此页面显示链接。
引用本论文的数据集0
尚无数据集链接本论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.17539 以在此页面显示链接。
引用本论文的Spaces0
尚无Space链接本论文
请在Space README.md 中引用 arxiv.org/abs/2606.17539 以在此页面显示链接。
包含本论文的收藏0
尚无收藏包含本论文
请将本论文添加到收藏(https://huggingface.co/new-collection)中以在此页面显示链接。
相似文章
检索、整合与综合:空间-语义接地潜层视觉推理
本文介绍了 RIS,这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架,旨在克服信息瓶颈。该框架提出将潜在令牌(tokens)锚定于空间和语义证据之上,在 V* 和 HRBench 等基准测试中展现出性能提升。
推理,然后重新推理:跨视角回顾提升空间推理
一种无需训练的空间推理框架,它利用由预测3D几何生成的合成新视角视频,实现对自我中心视频中结论的重新审视。
SVoT: 基于强化学习的状态感知思维可视化空间推理
论文提出了SVoT,一种用于多模态大语言模型(MLLMs)中多跳空间推理的强化学习框架,该框架生成交错、可验证的中间状态和可视化,在涉及多对象交互和数值推理的新基准测试上取得了显著的准确性提升。
基于大型视觉-语言模型利用遥感影像进行建成环境推理
本文探讨了利用大型视觉-语言模型处理遥感影像以进行建成环境推理任务(如设计建议和风险识别)。研究评估了 InternVL 和 Qwen 等模型,突显了其在支持智慧城市决策和定量推理方面的潜力。
用想象力思考:基于世界模拟器的主动式视觉空间推理
本文提出了Astra,一个主动式空间推理框架,将经过强化学习训练的VLM策略与一个世界模拟器结合起来,生成新视角的观察结果,以改进视觉语言模型中的空间推理能力。