大型语言模型中用于结构推理的视觉图支架

arXiv cs.AI 2026/06/03 04:00 论文

graph-reasoning multi-hop-qa knowledge-distillation visual-scaffolds llm vlm

摘要

本文探讨了将视觉图思维导图用作LLMs的推理支架，发现即使没有直接答案提示，视觉引导仍然有效，而将图扁平化为文本则会失去优势。

arXiv:2606.02673v1 公告类型：新摘要：图已被用于增强大型语言模型（LLMs）的结构化推理，通常在测试时将外部知识源提供给模型。在本文中，我们持不同观点：图对LLMs的价值不仅在于提供信息，还在于组织推理。受人类使用图结构思维导图来组织分支和汇聚思路的启发，我们探究图是否可以作为内部形式的推理辅助。我们在多跳问答任务中研究这一问题，将教师提供的推理轨迹重写为图思维导图，并用于指导学生模型。我们的实验揭示了明显的模态差异。当图结构被扁平化为文本时，一旦移除直接答案提示，其益处就变得有限。在这种抽象引导设置下，推理效率和答案质量都显著下降。相比之下，视觉图引导在没有直接答案线索的情况下仍然有效，并且在监督微调和基于KL的蒸馏后其优势仍然保持。上述发现支持了一个观点：图不仅应作为LLMs的外部知识结构来研究，还应作为组织推理的视觉支架。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:41

# 面向大语言模型结构化推理的视觉图支架 来源：https://arxiv.org/html/2606.02673  

###### 摘要  

图结构已被用于增强大语言模型（LLMs）的结构化推理能力，主要是在测试时将图作为外部知识源提供给模型使用。本文持不同观点：图对LLMs的价值不仅在于提供信息，还在于组织推理过程。受人类使用图结构思维导图来组织分支与汇聚思维的启发，我们探究图能否作为推理辅助的内在形式。我们聚焦于多跳问答任务，将教师提供的推理轨迹重写为图结构思维导图，并用于指导学生模型。实验揭示出明显的模态鸿沟：当图结构被平铺为文本后，一旦移除直接的答案提示，其优势便大打折扣。在抽象指引设定下，推理效率和答案质量均显著下降。相反，视觉图指引在缺乏直接答案线索时依然有效，且该优势在监督微调和基于KL的蒸馏后仍能保持。上述发现支持了以下主张：图不仅应作为LLMs的外部知识结构来研究，也应当作为组织推理的可视化支架。  

关键词：机器学习，ICML  

## 1 引言  

图可作为增强大语言模型（LLMs）及视觉语言模型（VLMs）在推理任务中表现的有效工具。在现有大多数设定中，图被用作外部支持，用于检索证据、佐证答案或组织模型可能不具备的记忆 (Han et al., 2025a (https://arxiv.org/html/2606.02673#bib.bib1); He et al., 2024 (https://arxiv.org/html/2606.02673#bib.bib3); Zhang et al., 2025 (https://arxiv.org/html/2606.02673#bib.bib4))。尽管有效，但这一视角只捕捉了图所能提供的一部分价值。在人类推理中，图常常不仅作为信息结构，还作为认知支架发挥作用。例如，人类绘制的思维导图使得分支、汇聚、层级和局部关系比线性文本更容易审阅。这引出了本文的核心问题：图能否帮助LLMs不仅获取知识，还能组织推理？  

我们在教师-学生设定下研究此问题：强教师模型先解决一个多跳问答任务，其推理过程被重写为图结构支架，供弱学生模型使用。目标不是检索额外的事实，而是传递成功推理过程的组织结构。如果这种指引能提升学生表现，并随后通过微调或蒸馏内化，那么图便不仅仅是外部知识，而是成为教授结构化思维的媒介。实现图结构推理的自然途径是文本。先前的Graph-of-Thoughts及相关方法已探索了如何在基于语言的提示框架内呈现非线性推理结构 (Besta et al., 2024 (https://arxiv.org/html/2606.02673#bib.bib5); Yao et al., 2024 (https://arxiv.org/html/2606.02673#bib.bib6); Han et al., 2025b (https://arxiv.org/html/2606.02673#bib.bib7))。然而，文本依然是线性媒介。一旦图被平铺成句子，其拓扑结构必须间接描述，通常导致指引冗余且难以学习。这促使我们采用另一种接口：以图像呈现图。在我们的流程中，教师推理被渲染为图结构思维导图并提供给学生VLM，而文本指引则作为控制基线。此设计让我们得以探究：优势究竟来自推理内容本身，还是来自以视觉形式保留推理拓扑结构。  

（图1标题）  
图1：图引导推理框架概览。(a) 教师推理与答案：强教师模型解决多跳问题并生成详细推理轨迹。(b) 指引生成：教师的推理被转化为四类指引物：文本 vs. 视觉模态，直接 vs. 抽象风格。(c) 学生答案：学生模型利用生成的指引得出正确答案。(d) 蒸馏：学生通过SFT或KL内化结构化推理。  

为了使这种比较有意义，我们区分了两类指引设定。在直接设定中，指引可能包含答案相关的线索，如关键事实或中间结论。在抽象设定中，这种线索被禁止：指引只能描述一般推理策略和结构关系，不得泄露最终答案、答案特定事实或中间结论。抽象设定是我们研究的核心，因为它测试学生能否将图用作推理支架而非寻求答案的捷径。  

我们的实验揭示了明显的模态差距。当允许答案相关线索时，视觉图指引和文本指引表现相似。然而，当指引必须保持抽象时，视觉图指引依然有效，而文本指引则急剧下降。这一优势在监督微调（SFT）和基于KL的蒸馏后仍然保持，且伴随着更短的推理输出。这些发现暗示了图中更广泛的作用。除了作为外部知识，图可以成为传递推理组织本身的接口。通过以紧凑形式保留分支、汇聚和局部依赖关系，视觉图暴露了当相同推理过程被平铺成文本时难以保持的结构。我们的立场是，视觉图指引应被视为一种拓扑保持的接口，用于结构化推理，而不仅仅是另一种提示形式。在此接口中，视觉是一种特别有前景的模态，因为它能保留和呈现图拓扑，而非将其线性序列化为文本。  

## 2 相关工作  

许多图-LLM工作将图视为用于检索或佐证的外部结构。GraphRAG从语料库中构建实体-关系图，用于检索局部事实和语料库级结构(Edge et al., 2024 (https://arxiv.org/html/2606.02673#bib.bib12))。G-Retriever在生成前检索紧凑且推理相关的子图(He et al., 2024 (https://arxiv.org/html/2606.02673#bib.bib3))。ToG-2在知识图谱遍历与文本上下文检索之间交替，以进行更深入的多跳推理(Ma et al., 2025 (https://arxiv.org/html/2606.02673#bib.bib13))，而GNN-RAG在提示LLM之前使用图神经网络检索识别与问题相关的节点和路径(Mavromatis and Karypis, 2025 (https://arxiv.org/html/2606.02673#bib.bib14))。  

另一条相关线使用图来组织推理本身：Graph of Thoughts将中间推理状态表示为节点，依赖关系表示为边，从而实现非线性推理轨迹(Besta et al., 2024 (https://arxiv.org/html/2606.02673#bib.bib5); Yao et al., 2024 (https://arxiv.org/html/2606.02673#bib.bib6))。近期关于视觉图推理的工作进一步表明，视觉语言模型可以从图图像中受益。Wang等人(Wang et al., 2023 (https://arxiv.org/html/2606.02673#bib.bib8))指出LLMs在基于文本的图推理上存在困难，Zhao等人(Zhao et al., 2025 (https://arxiv.org/html/2606.02673#bib.bib11))发现视觉编码器在全局结构理解上可以超越GNN，Wei等人(Wei et al., 2024 (https://arxiv.org/html/2606.02673#bib.bib10))和Zhu等人(Zhu et al., 2025 (https://arxiv.org/html/2606.02673#bib.bib9))使用基于图像的原始图输入表示来改善图推理性能。然而，这些研究大多将图作为外部知识、文本推理结构或图输入的可视化。它们未充分探索一个问题：图图像能否外化并传递推理过程本身的结构。本文聚焦于那个接口问题：我们不是问模型能否从图像中解决图问题，而是问图像能否将推理轨迹从一个模型传递到另一个模型。  

## 3 视觉图是推理接口  

为了研究LLM推理过程中图的呈现方式所带来的差异，我们设计了一个流程来比较同一教师指引的不同表示，特别是渲染后的图图像与线性文本之间的比较。如图1所示，该流程包含三个主要阶段：教师轨迹生成、指引构建，以及作为内化步骤的蒸馏。这种设计隔离了同一推理结构在视觉呈现时是否比平铺为文本更易于使用。  

### 3.1 教师轨迹生成  

首先，我们识别出基础学生模型回答错误的QA示例。对于每个这样的案例，一个更强的教师模型解决相同问题并生成显式推理轨迹。我们只保留教师答案被验证为正确的案例，以便后续比较聚焦于推理如何传递，而非教师是否解决了问题。这些经过验证的教师轨迹随后被重写为学生使用的指引物。  

### 3.2 指引构建  

每个教师轨迹沿两个轴转换为指引：模态和内容风格。对于模态，图像指引将教师轨迹转换为Graphviz DOT代码并渲染为图结构思维导图，而文本指引则以纯文本表达相同类型的支持。我们还构造了一个图到文本控制，该控制在图构造后将教师生成的图代码转换为文本。该控制保留了图节点内容，同时移除了视觉布局。对于内容风格，直接指引包含任务特定提示、关键事实和中间结论。相反，抽象指引只能包含一般推理策略和逻辑操作，必须排除答案特定线索。引入直接指引是因为它提供答案相关信息，而抽象指引则测试学生真正像使用思维导图一样利用图结构进行推理的能力。  

### 3.3 学生对指引的使用  

学生通过两种方式使用构建的指引。首先，在引导重评估中，学生被冻结，并在持有教师指引的情况下重新回答其原始失败案例。这衡量了每种指引接口的直接实用性。其次，在内化中，学生在成功的引导行为上进行训练，之后无需指引进行测试。我们考虑了两种方式：自我SFT，即在学生自身正确的引导响应上微调学生；以及KL蒸馏，其中引导分支为未引导分支提供软目标。这些设定共同探究：视觉图是否仅作为推理时的提示有帮助，还是它们的结构信号可以被模型吸收。  

## 4 实验  

我们旨在研究以下研究问题：  
- • RQ1：视觉图能否有效指导学生模型的推理？  
- • RQ2：学生模型能否内化基于图的指引的优势？  
- • RQ3：图结构在视觉推理指引中扮演什么角色？  

为回答这些问题，我们首先使用冻结的学生模型对教师纠正的失败案例进行引导重评估。然后，我们检查在通过自我SFT和KL蒸馏进行内化后，观察到的优势是否仍然存在。最后，我们通过测量输出长度和消融图拓扑来分析图像为何有帮助。  

### 4.1 实验设置  

主要实验在三个经典多跳问答数据集上进行：HotpotQA (Yang et al., 2018 (https://arxiv.org/html/2606.02673#bib.bib18)), 2WikiMultiHopQA (Ho et al., 2020 (https://arxiv.org/html/2606.02673#bib.bib19)), 和 MuSiQue (Trivedi et al., 2022 (https://arxiv.org/html/2606.02673#bib.bib20))。监督数据集由这三个数据集的训练分割构建。经过语义验证后，它包含14,490个教师正确的案例，用于基于指引的重评估和下游内化。保留的QA测试集总共包含3,000个问题，每个数据集采样1,000个。对于消融研究，我们使用从训练分割教师正确池中采样的单独3,000示例子集，每个数据集也是1,000个示例。  

我们报告两项QA评估。第一项是对教师指引失败集进行的引导重评估。第二项是内化后对测试集进行的QA。在实验中，我们分别使用DeepSeek-V3.2 (DeepSeek-AI, 2025 (https://arxiv.org/html/2606.02673#bib.bib15)), Qwen3-VL-8B-Instruct (Qwen Team, 2025b (https://arxiv.org/html/2606.02673#bib.bib16)), 和 Qwen3-8B-Instruct (Qwen Team, 2025a (https://arxiv.org/html/2606.02673#bib.bib17)) 来实例化教师、学生和验证器。完整提示、设置细节和超参数见附录。  

### 4.2 主要结果  

表1：主要QA结果。重评估报告冻结学生在教师正确的QA失败案例上的引导重评估准确率（%）。自我SFT和KL报告内化后在测试集上的留出QA准确率（%）。用教师CoT训练表示直接在教师的推理内容上进行SFT。  

##### 发现1：当推理指引必须保持结构性而非答案局部性时，图像优势显现。  

表1显示，在直接设定中，模态差异不大。在重评估中，直接图像和直接文本指引基本持平。这与以下观点一致：一旦存在强烈的答案相关线索，改变模态影响不大。在抽象设定中，模式发生了变化。在此，指引必须教授如何推理，而非揭示要恢复的答案。在此约束下，抽象图像指引仍然强劲，而抽象文本则大幅下降，图到文本控制甚至下降更多。这些结果表明，当学生必须依赖结构指引而非答案相关线索时，图像变得特别有价值。  

##### 发现2：该优势在内化后依然存在。  

表1中的自我SFT和KL块显示，同样的排序在训练后仍然保持。在自我SFT中，图像指引在两种风格上都强于文本。KL蒸馏显示出相同模式，最大差距再次出现在抽象设定中。图到文本控制仍然低于图像指引。这表明，基于图像的图结构指引比其文本对应物更容易被学生内化。  

### 4.3 图像为何有帮助  

##### 发现3：图像通过提供更短但更有结构的接口来帮助。  

表2报告了抽象设定下的平均输出长度。在重评估中，抽象图像指引平均仅产生226个输出token，而抽象文本为703个，图到文本为697个。训练后，抽象图像模型也远短于其文本对应物。这表明图表示提供了强大的压缩效果。模型不必花费token来展开冗长的序列化文本指引，而是可以通过视觉从更紧凑的结构化接口中恢复推理过程。从这个意义上说，渲染后的图像保留了图以紧凑方式表达复杂关系的特性。

大型语言模型中用于结构推理的视觉图支架

相似文章

HyperGuide：大型语言模型中高效多步推理的双曲引导方法

大型语言模型中的推理源于受限推理流形

大型学习模型中增强且高效的推理

ReasoningFlow: 用于理解LLM推理轨迹的篇章结构

基于外部子图生成的大语言模型逐步推理增强

提交意见反馈