检索、整合与综合：空间-语义接地潜层视觉推理

arXiv cs.CL 2026/05/11 04:00 论文

multimodal-llm visual-reasoning latent-space spatial-grounding xi-an-jiaotong-university arxiv

摘要

本文介绍了 RIS，这是一个用于多模态大语言模型的空间-语义接地潜层视觉推理框架，旨在克服信息瓶颈。该框架提出将潜在令牌（tokens）锚定于空间和语义证据之上，在 V* 和 HRBench 等基准测试中展现出性能提升。

arXiv:2605.07106v1 公告类型：新论文摘要：多模态大语言模型（MLLMs）在视觉语言推理方面取得了显著进展，但大多数方法仍然将视觉证据压缩为离散的文本思路，从而在细粒度感知方面造成信息瓶颈。最近的潜层视觉推理方法试图在连续隐藏状态中进行推理，但我们发现它们存在流形兼容性不足的问题：潜在轨迹偏离预训练的推理回路，退化为与实例无关的模式，并且在生成答案时经常被绕过。为了解决这些问题，我们提出了 RIS（Retrieve, Integrate, and Synthesize），即检索、整合与综合框架。这是一种空间-语义接地框架，将潜层推理发展为预训练 MLLM 计算的兼容扩展。我们首先构建了一个逐步接地的推理数据集，包含边界框和特定区域的语义描述。基于这种监督，RIS 将潜在令牌同时锚定于空间和语义证据，通过渐进式注意力瓶颈强制执行其因果作用，并引入短语言过渡令牌，将综合后的潜在状态桥接回与词汇对齐的解码过程。在 V*、HRBench4K、HRBench8K、MMVP 和 BLINK 上的实验表明，RIS 在封闭/开源及潜层推理基线上均取得了稳定的性能提升。进一步的分析表明，RIS 学习了多样化、可解释且逐步集成的潜在轨迹，为 MLLMs 中忠实可靠的内部视觉推理提供了一条切实可行的路径。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/11 06:47

# 检索、整合与综合：基于空间-语义 grounded 的潜在视觉推理

**来源**: https://arxiv.org/html/2605.07106

Jin Cui*¹, Xinyue Long*², Xunyong Zhang¹, Yadong Zhang¹, Chuanchang Su¹, Jingye Gan¹, Boran Zhao†², Pengju Ren¹

¹ 人机混合增强智能国家重点实验室，人工智能与机器人研究所，西安交通大学
² 软件工程学院，人机混合增强智能国家重点实验室，人工智能与机器人研究所，西安交通大学

[email protected], {boranzhao, pengjuren}@xjtu.edu.cn

###### 摘要

多模态大语言模型（MLLMs）在视觉-语言推理方面取得了显著进展，但大多数方法仍将视觉证据压缩为离散的文本书写，从而在细粒度感知上形成了信息瓶颈。最近的潜在视觉推理方法试图在连续隐藏状态中进行推理，但我们发现它们存在流形兼容性不足的问题：潜在轨迹偏离了预训练的推理电路，坍缩为与实例无关的模式，并且在答案生成过程中经常被旁路。为了解决这些问题，我们提出了 **RIS**（Retrieve, Integrate, and Synthesize，检索、整合与综合），这是一个基于空间-语义 grounded 的框架，将潜在推理发展为预训练 MLLM 计算的兼容扩展。我们首先构建了一个逐步 grounded 的推理数据集，包含边界框和区域特定的语义描述。基于这种监督，RIS 将潜在 token 锚定到空间和语义证据上，通过渐进式注意力瓶颈强制其发挥因果作用，并引入简短的语言过渡 token，以将综合后的潜在状态桥接回与词汇对齐的解码过程。在 V*, HRBench4K, HRBench8K, MMVP 和 BLINK 上的实验表明，RIS 一致性地优于闭源/开源基线及潜在推理基线。进一步的分析表明，RIS 学会了多样化、可解释且逐步整合的潜在轨迹，为实现 MLLM 中忠实内部视觉推理提供了一条实际路径。

*¹ 同等贡献。*² 通讯作者。

## 1 引言

多模态大语言模型（MLLMs）在多种视觉-语言任务中取得了显著成功，这主要得益于思维链（Chain-of-Thought, CoT）推理 [23, 8]。然而，这些模型仍然将视觉信息视为静态前提，将连续的视觉特征转换为离散的文本书写，并仅在文本领域内进行推理 [10]。这创造了一个固有的瓶颈：细粒度视觉证据必须在参与推理之前被压缩为语言 token。

最近的“用图像思考”（Thinking with Images）[16] 方法通过外部工具 [26, 12, 22] 或编程操作 [4, 17, 6] 注入视觉证据来缓解这一问题，但它们的灵活性受限于预定义的工具接口和外部执行。这需要一种更统一的解决方案，将中间视觉推理移至模型内部，使其能够在连续隐藏表示中直接操纵与问题相关的视觉证据。

潜在视觉推理为实现这一目标提供了有前途的途径。与基于文本的 CoT 不同，潜在状态提供了一个 expressive 的工作空间，可以在不被离散化为语言的情况下表示视觉模式和抽象概念 [16, 27]。然而，这种自由也引入了一种基本的张力。由于模型的推理行为和解码接口主要由语言预训练塑造，有效的潜在视觉推理不仅必须利用潜在视觉流形 $\mathcal{M}_{vis}$ 的表现力，还必须与词汇对齐流形 $\mathcal{M}_{vocab}$ 保持兼容，后者组织了预训练的推理电路和基于语言的解码。现有的方法如 LVR [9] 和 Monet [19] 通过从潜在状态重建视觉 token 或生成连续嵌入作为中间视觉思维迈出了重要一步，但它们并未完全解决这一兼容性问题。

在本工作中，我们首先分析**为什么**现有的潜在视觉推理方法尽管形成了独特的潜在视觉表示，但仍然无效。最近的因果中介研究 [11] 揭示了明显的 *输入-潜在* 和 *潜在-答案* 断开，其中潜在 token 在视觉输入中 grounded 较弱，并对最终预测的影响有限。我们的实证分析进一步表明，这些失败与流形发散密切相关。具体而言：(1) 弱监督的隐藏状态可能会偏离预训练的词汇对齐流形，并倾向于坍缩为高度相似、与实例无关的轨迹；(2) 答案 token 通常绕过潜在 token，直接依赖输入图像和问题；(3) 模型必须将高熵潜在视觉状态急剧收敛到低熵答案 token，这可能会在语言解码期间引发表示不匹配。

为了应对这些挑战，我们提出了 **RIS**（Retrieve, Integrate, and Synthesize），这是一个 grounded 的潜在视觉推理框架，它将潜在空间发展为预训练推理电路的兼容扩展，而不是一个分离的视觉流形。为了支持训练，我们首先构建了一个包含 **96k** 样本的逐步 grounded 视觉推理数据集，其中每个推理步骤都与边界框空间监督和区域特定的语义描述配对。基于这种空间-语义监督，RIS 将潜在 token 结构化为定向视觉证据检索状态：边界框监督锚定**看哪里**，语义对齐指定**看到什么**，渐进式注意力掩码强制任务相关证据流经潜在 token，而不是在答案生成过程中被旁路。超出标注推理步骤的槽位仅通过最终答案目标进行优化，赋予它们整合和综合由 grounded 槽位检索到的证据的新兴能力。最后，我们证明在潜在推理和最终选项级答案之间生成稍加详细的答案起到了流形过渡 token 的作用，因为它逐渐降低了从潜在状态到低熵答案 token 的推理路径的熵，而不是急剧退化，同时在训练期间提供了密集的监督。

我们在五个具有挑战性的视觉推理基准上评估了 RIS。RIS 一致性地优于强基线，特别是在需要定位、结构化视觉搜索和多步感知推理的任务上取得了明显增益。进一步的分析表明，RIS 产生了更多样化、可解释且任务相关的潜在轨迹。我们的贡献总结如下：

- ⋆ 我们提供了对 MLLM 中潜在视觉推理的系统分析，识别了词汇对齐流形 $\mathcal{M}_{vocab}$ 和潜在视觉流形 $\mathcal{M}_{vis}$ 之间的相互作用，并揭示了流形发散、潜在轨迹坍缩和答案旁路是关键障碍。
- ⋆ 我们构建了一个包含 **96k** 样本的 **Grounded Latent Supervision Dataset (GLSD)**，并提出了 RIS，这是一个基于空间-语义 grounded 的潜在推理框架，它结构化潜在 token 以检索任务相关的视觉证据，同时将潜在空间发展为预训练推理电路的兼容扩展，而不是一个分离的视觉流形。
- ⋆ 我们展示了在视觉推理基准上的一致性改进，特别是在定位和多步视觉推理任务上，并进一步表明 RIS 学会了多样化、可解释且逐步整合的潜在推理轨迹，达到了最先进的性能。

## 2 相关工作

**从静态感知到内部视觉想象**。大多数当前的 MLLM 采用文本空间 CoT 推理来解决复杂的视觉任务，将视觉输入视为基于语言推理的静态前提 [28, 21]。虽然有效，但此类方法通过离散文本书写进行推理，这为细粒度视觉理解提供了间接且有损的表示。最近的 *Thinking with Images* [16] 方法通过使用外部视觉工具来操纵和注入中间视觉证据 [26] 来缓解这一限制。然而，它们的有效性受限于预定义工具的可用性、设计和粒度。这激发了内部视觉推理，其中模型在连续潜在状态中对视觉证据进行推理，而不是将其转换为文本或像素。

**潜在推理**。最近的研究探索了连续潜在空间作为离散 token 级推理的替代方案。代表性方法包括利用递归隐藏状态进行广度优先搜索 [5]、显式推理轨迹的自我蒸馏 [15] 以及通过叠加潜在链进行隐式推理 [2]。虽然这些方法提高了推理效率，但它们仍然受限于文本空间。将它们扩展到 MLLM 并非易事：通过词汇嵌入或弱监督隐藏状态表示视觉证据可能会扭曲细粒度线索，如纹理、颜色和空间布局。有效的视觉潜在推理需要一个视觉流形，该流形可以保留丰富的感知证据，同时保持与基于语言的推理的兼容性。

**潜在视觉推理**。为了超越静态感知转向内部视觉想象，最近的范式探索了在潜在空间内直接进行逻辑演绎。LVR [9] 通过从潜在状态重建任务关键 token 在视觉嵌入空间内进行自回归推理。Monet 生成连续嵌入作为中间视觉思维，并通过蒸馏管道将其与视觉语义空间对齐 [19]。Mirage 进一步将隐藏状态视为潜在视觉 token，以构建多模态推理轨迹，而无需像素级图像合成 [25]。尽管取得了这些进展，但最近的诊断研究揭示了一个持续的因果差距：潜在 token 通常在视觉输入中 grounded 较弱，并对最终答案的影响有限 [11]。我们的分析进一步揭示了现有基线中的根本**流形发散**，其中潜在轨迹漂移到远离预训练语义锚点的深层、未校准区域。因此，这些局限性激发了我们的 grounded 潜在推理框架。

## 3 对推理流形的分析

为了了解潜在 token 如何塑造经过潜在推理训练的模型的推理轨迹，我们开发了一种几何分析，以可视化单次推理期间隐藏状态穿过的路径，相对于原始基础模型流形和词汇嵌入空间。这项分析由一个简单的问题驱动：**当模型生成一系列潜在 token，随后解码语言答案 token 时，其内部表示如何在隐藏状态和词汇嵌入的联合空间中穿行？**

我们从包含 $N$ 个样本的评估集中构建了一个推理轨迹数据集。对于每个样本 $i$，前向解码过程产生最后一层隐藏状态 $\{\mathbf{h}^{(i)}_t\}_{t=1}^{T_i}$，其中每个状态被标记为属于 *潜在* 或 *答案* 阶段。我们将所有这些样本中的这些推理状态的集合表示为 $\mathcal{H}_{\textit{RIS}}$。作为参考，我们收集了来自冻结基础模型的相应隐藏状态，表示为 $\mathcal{H}_{\mathrm{base}}$，以及词汇嵌入矩阵 $\mathbf{E} \in \mathbb{R}^{V \times d}$。为了在共享空间中可视化流形分布和推理轨迹，我们在 $\mathcal{H}_{\mathrm{base}}$、$\mathcal{H}_{\textit{RIS}}$ 和 $\mathbf{E}$ 上联合拟合 PCA，并将每个轨迹投影到由前两个主成分张成的平面上。

> **图 1**: 潜在推理范式的几何分析：(a) 流形分布和轨迹，(b) 相对于基础模型的逐层参数偏移，以及 (c) 答案 token 的注意力模式。

### 3.1 流形兼容性与轨迹动力学

我们使用 *流形* 来指代高维隐藏状态或嵌入表示的经验支撑。图 1 比较了冻结基础模型的隐藏状态分布（作为预训练词汇对齐流形的经验参考）与不同潜在推理训练方法诱导的分布。在 LVR 和 Monet 中，学习到的潜在状态与该参考流形明显分离，表明它们形成了具有更丰富视觉表现力的独特潜在视觉流形，但也引入了表示分布偏移。这种分离可能会削弱与大规模语言预训练期间获得的预训练推理电路以及语言解码过程的兼容性，这在一定程度上解释了它们性能的下降。

轨迹可视化提供了这一现象的动态视图。成功的推理路径往往保持与词汇对齐流形的连接，而失败的路径更经常被困在分离的潜在视觉区域内。这并不意味着正确的推理必须在特定步骤明确返回到词汇流形；相反，有效的潜在视觉推理应该与预训练表示机制保持兼容，允许模型利用现有的推理电路，同时在潜在空间中融入细粒度视觉证据。这支持了我们的观点：**潜在视觉推理不应取代模型的原始推理流形，而应作为其兼容扩展发展。**

> **图 2**: 数据集构建流程。MLLM 将每个 QA 对分解为几个 grounded 推理步骤，然后由 Grounding DINO 验证和校准。

### 3.2 逐层适应模式

为了进一步分析观察到的流形兼容性，图 1 (b) 测量了相对于基础模型的逐层参数偏移。LVR 和 Monet 在中间层显示出有限的变化，但在输出层显示出大的偏移，表明它们的适应集中在最终解码接口附近，而不是分布在内部计算堆栈中。这种模式表明它们形成了有限的...

检索、整合与综合：空间-语义接地潜层视觉推理

相似文章

LatentRAG：用于高效智能体 RAG 的潜在推理与检索

基于大型视觉-语言模型利用遥感影像进行建成环境推理

视觉语言模型真的能进行视觉推理吗？模态差距的严格研究

PRISM：用于顺序决策的感知与推理交织方法

大规模推理模型（尚）不是多语言潜在推理器

提交意见反馈