MKG-RAG-Bench：多模态知识图谱增强生成中的检索基准测试

arXiv cs.AI 2026/06/26 04:00 论文

摘要

介绍了MKG-RAG-Bench，这是一个用于评估多模态知识图谱增强生成中检索效果的跨领域基准，表明有效的多模态检索仍然具有挑战性，并且对下游生成质量至关重要。

arXiv:2606.26458v1 公告类型：新摘要：检索增强生成（RAG）与知识图谱的结合已成为一种有前景的大语言模型接地方法，但现有基准大多忽略了多模态知识图谱RAG（MKG-RAG）中检索的挑战。实际上，检索是一个关键瓶颈：多模态知识异构，跨模态对齐困难，且通常难以用为无结构语料库设计的检索器有效处理。为弥补这一空白，我们提出了MKG-RAG-Bench，一个专门用于评估MKG-RAG中检索效果的跨领域基准。MKG-RAG-Bench基于两个多模态知识图谱构建，涵盖通用和医学领域，并包含精心对齐的问答数据集，支持对检索和下游生成的受控评估。该基准采用基于LLM的策展流程构建，该流程过滤低效用知识，生成具有精确监督的结构化查询，并系统地覆盖多种模态配置。通过对代表性检索器系列和模态设置的大量实验，我们表明有效的多模态检索仍然具有挑战性，但对端到端MKG-RAG性能至关重要，且检索质量强烈决定生成结果。通过将检索作为一级评估目标进行隔离，MKG-RAG-Bench为诊断当前限制和推进多模态知识图谱RAG系统提供了原则性基础。

查看原文

查看缓存全文

缓存时间: 2026/06/26 05:12

# MKG-RAG-Bench：多模态知识图谱增强生成中的检索基准

来源：https://arxiv.org/html/2606.26458  
,Bao Hoang密歇根州立大学东兰辛密歇根美国hoangbao@msu\.edu (https://arxiv.org/html/2606.26458v1/mailto:[email protected]),Han Liu大连理工大学大连辽宁中国liu\.han\.dut@gmail\.com (https://arxiv.org/html/2606.26458v1/mailto:[email protected]),Ting Wang石溪大学石溪纽约美国wang@cs\.stonybrook\.edu (https://arxiv.org/html/2606.26458v1/mailto:[email protected])以及Fenglong Ma宾夕法尼亚州立大学大学城宾夕法尼亚美国fenglong@psu\.edu (https://arxiv.org/html/2606.26458v1/mailto:[email protected])

\(2026\)

###### 摘要

基于知识图谱的检索增强生成已成为大语言模型实现知识锚定的重要途径，然而现有基准大多忽略了多模态知识图谱RAG（MKG-RAG）中的检索挑战。实践中，检索是关键瓶颈：多模态知识具有异质性，跨模态对齐困难，且常被设计用于非结构化语料的检索器所忽视。为弥补这一空白，我们提出MKG-RAG-Bench，一个跨领域基准，专门用于评估MKG-RAG中的检索性能。MKG-RAG-Bench基于通用和医学两个领域的多模态知识图谱构建，包含精心对齐的问答数据集，支持对检索和下游生成进行受控评估。该基准采用基于LLM的构建流程：过滤低效用知识，生成具有精确监督的结构化查询，并系统覆盖多种模态配置。通过对代表性检索器家族和模态设置的大量实验，我们表明有效的多模态检索对于端到端MKG-RAG性能仍然充满挑战但至关重要，且检索质量强烈决定生成结果。通过将检索作为一等评估目标，MKG-RAG-Bench为诊断当前局限性和推进多模态知识图谱RAG系统奠定了原则性基础。111该基准可访问：https://github.com/XiaochenWang-PSU/MKG-RAG-Bench。

多模态检索增强生成，多模态知识图谱

††期刊年份:2026††版权:cc††会议:第32届ACM SIGKDD知识发现与数据挖掘会议V.2；2026年8月9–13日，韩国济州岛††论文集标题:第32届ACM SIGKDD知识发现与数据挖掘会议V.2 (KDD ’26)，2026年8月9–13日，韩国济州岛††doi:10\.1145/3770855\.3817570††isbn:979\-8\-4007\-2259\-2/2026/08††计算机分类系统:计算方法 连续空间搜索††计算机分类系统:计算方法 自然语言生成

## 1. 引言

检索增强生成通过从外部来源检索与给定查询相关的信息，并将生成过程锚定于这些检索到的证据，来增强大语言模型（LLMs）(Lewis等, 2020 (https://arxiv.org/html/2606.26458#bib.bib48))。尽管RAG已在改善事实锚定性方面证明有效，但传统方法主要从非结构化文本语料库中检索，这些语料噪声大、碎片化且连接弱。这些局限常妨碍可靠的证据选择和逐步推理，尤其对于复杂查询。为解决这些问题，基于知识图谱的RAG（KG-RAG）被提出(Edge等, 2024 (https://arxiv.org/html/2606.26458#bib.bib49))。通过从结构化知识图谱中检索信息，KG-RAG能够实现更连贯、更具上下文且更全面的知识访问，从而提升答案质量和忠实度(Wang等, 2026 (https://arxiv.org/html/2606.26458#bib.bib15))。然而，现有KG-RAG方法主要局限于文本知识图谱，这严重限制了它们在真实场景中的适用性，因为在这些场景中，关键信息往往通过图像、图表、表格及其他非文本模态传递。

参见标题Figure 1。图1. 使用多模态知识图谱和大语言模型构建基准的所提流程。

**多模态KG-RAG.** 为克服这一局限，我们探索了任务——多模态KG-RAG（MKG-RAG），该任务整合跨模态的结构化知识以支持更具表现力的检索与推理。形式上，给定查询\(q\)、多模态知识图谱\(\mathcal{G}\)、检索器\(\textsf{Retriever}\)和多模态大语言模型\(\textsf{MLLM}\)，MKG-RAG的目标是生成响应\(\mathcal{R}\)，即：

\[\mathcal{R}=\textsf{MLLM}(q,\textsf{Retriever}(q,\mathcal{G})).\]

与此最相关的设置是多模态RAG(Chen等, 2022b (https://arxiv.org/html/2606.26458#bib.bib47))，它遵循传统RAG流程，从非结构化外部语料库（如维基百科）而非结构化多模态知识图谱中检索多模态内容。据我们所知，目前**没有现有基准或先前工作**系统研究MKG-RAG设置下的检索与生成。

**动机与挑战.** 多模态KG-RAG之所以值得基准测试，是因为它评估模型检索、对齐并推理**结构化多模态知识**的能力，这是现实世界系统所需的关键能力，而现有RAG、KG-RAG或多模态基准并未涵盖。本文旨在引入MKG-RAG任务的**首个**基准，包含精心策划的数据集和评估协议，明确针对检索质量和多模态锚定性。然而，设计这样一个基准面临若干非平凡挑战：

- •**异质性检索.** 与传统知识图谱（查询和目标三元组均为单模态）不同，多模态知识图谱支持查询和检索目标之间的异质模态组合。在MKG-RAG中，查询可能是纯文本、纯图像或多模态的，而相关图组件可能以不同方式结合文本、视觉和数值信息。这些组合会引发不同的检索行为，并需要不同的建模策略。一个有意义的MKG-RAG基准必须系统覆盖多种多模态检索场景，以反映实际使用并实现检索器之间的公平比较。
- •**多模态知识图谱–查询对齐.** 在MKG-RAG中，相关知识可能未在表面层面与查询显式对齐，尤其当查询和目标节点在模态或抽象层级上不同时。例如，文本查询可能需要以视觉证据为锚定，而基于图像的查询可能需要检索语义相关的文本实体和关系。解决此类跨模态和跨结构对齐需要联合推理图拓扑、语义关系和模态特定表示。因此，MKG-RAG基准必须包含要求超出浅层模态匹配的非平凡对齐的查询。
- •**基准效用.** 该基准的主要目标是评估多模态检索的有效性以及多模态LLM的锚定质量。这需要精心构建，以确保检索到的知识具有信息性并与下游查询良好对齐。多模态知识图谱通常包含通用或弱信息的三元组，这可能导致问题模糊或锚定不佳，并模糊检索的贡献。一个有用的MKG-RAG基准必须优先考虑高效用三元组，并解开有效检索带来的改进与生成先验带来的改进。

**我们的解决方案.** 为应对这些挑战，我们提出一个跨领域、面向检索的MKG-RAG基准，命名为MKG-RAG-Bench，包含两个多模态知识图谱及相应的多模态问答数据集。该基准旨在支持对多模态KG-RAG的检索和生成阶段进行全面评估。基准构建流程如图1 (https://arxiv.org/html/2606.26458#S1.F1)所示。具体来说，我们使用LLM选择高效用三元组，并采用启发式策略确保所选三元组与构建的查询之间强对齐。同一个LLM（使用不同提示）还被用于跨多种检索场景生成多模态、基于知识的查询，从而系统覆盖异质性模态组合。我们利用代表性的检索器架构在不同多模态设置下进行广泛实验，评估检索和生成流程中的有效性和效率。虽然本文主要关注使用**免训练**方法评估MKG-RAG，但该基准也适用于训练方法，包括检索器训练和MLLM微调。

表1. 代表性多模态RAG和KG-RAG基准的比较。

**贡献.** 总之，我们的主要贡献如下：

- • 我们识别出MKG-RAG中的一个关键研究空白，指出尽管检索扮演核心角色，但在现有多模态RAG研究中尚未被充分探索和评估。
- • 我们引入首个跨领域、面向检索的MKG-RAG基准，包含两个多模态知识图谱及相应的问答数据集，支持对检索和下游生成进行系统评估。
- • 我们提出一个基于LLM的基准策划流程，直接解决异质性检索、多模态对齐和基准效用中的关键挑战。
- • 我们开发了一个统一评估框架，并在多种多模态设置下进行综合实验，展示了有效多模态检索的重要性，并为未来研究更强大的MKG-RAG检索器铺平道路。

## 2. 预备知识

### 2.1. 基准比较

最相关的工作路线是多模态RAG（M-RAG），其重点是从大规模非结构化语料库中检索多模态内容，如文本段落和图像。检索到的多模态证据可以直接纳入多模态大语言模型的输入中(Ma等, 2024b (https://arxiv.org/html/2606.26458#bib.bib55); Li等, (https://arxiv.org/html/2606.26458#bib.bib57))，或重组为即席多模态结构以进一步增强生成(Wang等, 2025a (https://arxiv.org/html/2606.26458#bib.bib56))。然而，M-RAG遵循传统RAG范式，并不假设存在结构化的多模态知识图谱。因此，检索是在**非结构化语料库**上进行的，任何诱导出的结构都是瞬态且查询相关的，而非在知识源中显式表示。

另一条相关工作路线是基于知识图谱的RAG（KG-RAG），其目标是从给定的知识图谱中检索相关的三元组或子图，以支持锚定生成。然而，现有KG-RAG方法(Luo等, 2023 (https://arxiv.org/html/2606.26458#bib.bib46); Li等, 2024 (https://arxiv.org/html/2606.26458#bib.bib45))主要关注**文本知识图谱**，并未显式建模或检索多模态信息。因此，它们并非为评估或支持结构化多模态知识的检索与推理而设计。

相比之下，MKG-RAG在**预定义的多模态知识图谱**上运行，其中实体、关系和跨模态连接被显式建模。这从根本上改变了检索问题：MKG-RAG不是选择孤立的多模态文档，而是需要识别通过结构化关系整合异质性模态的相关子图。因此，现有的M-RAG和KG-RAG基准不足以评估MKG-RAG，因为它们既不捕获多模态图式检索，也不将检索质量与下游生成分开。表1 (https://arxiv.org/html/2606.26458#S1.T1)从多个角度比较了代表性基准，凸显了MKG-RAG的独特特征。

### 2.2. 检索器

尽管MKG-RAG任务不同于传统RAG、多模态RAG和KG-RAG，但许多现有检索技术可直接适用于此设置。在本工作中，我们根据底层检索策略将常用检索器分为四组：

- •**纯文本检索器**(Robertson和Zaragoza,2009 (https://arxiv.org/html/2606.26458#bib.bib29); Karpukhin等,2020 (https://arxiv.org/html/2606.26458#bib.bib30); Reimers和Gurevych,2019 (https://arxiv.org/html/2606.26458#bib.bib31))。纯文本检索器将查询和候选三元组均视为纯文本，并使用文本相似度（如稀疏词汇匹配或密集语义嵌入）对候选进行排序，而不融入视觉信息。
- •**基于融合的多模态检索器**(Chen等,2022b (https://arxiv.org/html/2606.26458#bib.bib47); Mei等,2025 (https://arxiv.org/html/2606.26458#bib.bib32))。基于融合的检索器将文本和视觉信息编码到共享表示空间中，并通过测量多模态查询与多模态目标之间的跨模态相似度来执行检索。
- •**基于描述的检索器**(Gao等,2022 (https://arxiv.org/html/2606.26458#bib.bib27); Zhai,2024 (https://arxiv.org/html/2606.26458#bib.bib28))。基于描述的检索器首先使用外部图像描述模型将视觉内容转换为文本描述，然后将多模态检索简化为对生成描述的纯文本检索。
- •**基于重排序的检索器**(Yan和Xie,2024 (https://arxiv.org/html/2606.26458#bib.bib25); Chen等,2025 (https://arxiv.org/html/2606.26458#bib.bib26))。重排序方法通常采用多阶段流程：轻量级第一阶段检索器过滤候选集，然后更强大的重排序器进行细粒度相关性估计并最终选择。

为确保公平且受控的比较，我们在**免训练**设置下评估所有检索器，直接使用其预训练权重，而不在所提基准上进行微调。

### 2.3. 初步分析

一种看似直接的构建多模态知识图谱RAG基准的方法是将现有的多模态知识图谱（如MMKG(Liu等,2019 (https://arxiv.org/html/2606.26458#bib.bib44))和TIVA-KG(Wang等,2023 (https://arxiv.org/html/2606.26458#bib.bib43))）与模态相关的下游任务（如A-OKVQA(Schwenk等,2022 (https://arxiv.org/html/2606.26458#bib.bib58))和K-VQA(Sanket Shah和Talukdar,2019 (https://arxiv.org/html/2606.26458#bib.bib42))）直接结合。然而，如第1节 (https://arxiv.org/html/2606.26458#S1)所述，这种简单组合不足以充分捕获MKG-RAG任务的需求，常导致知识源、检索目标和下游评估之间的严重错位。具体而言，回答给定查询所需的知识可能不在知识图谱中，而检索到的无关内容可能主导模型输入，引入噪声并最终降低性能。

为实证说明此问题，我们利用MedMKG(Wang等,2025b (https://arxiv.org/html/2606.26458#bib.bib20))（一个基于MIMIC临床数据构建的多模态医学知识图谱）支持两个广泛使用的医学视觉问答基准上的初步研究，但

MKG-RAG-Bench：多模态知识图谱增强生成中的检索基准测试

相似文章

MM-BizRAG：重新思考面向通用企业问答的多模态检索增强生成

RAGA：用于自主知识图谱构建和检索增强生成的阅读与图谱构建智能体

CanLegalRAGBench: 评估加拿大判例法上的检索增强生成

MHGraphBench：基于知识图谱的大语言模型心理健康知识基准测试

文本编辑能否泛化到视觉生成？统一多模态模型中的跨模态知识编辑基准测试

提交意见反馈