从场景到元素：可验证多模态RAG的多粒度证据检索

arXiv cs.CL 2026/05/15 04:00 论文

摘要

本文介绍了GranuVistaVQA，一个带有元素级注释的多模态基准，以及GranuRAG，一个将视觉元素视为可验证多模态RAG的一等检索单元的框架，相较于基线实现了高达29.2%的提升。

arXiv:2605.15019v1 公告类型：新摘要：多模态检索增强生成（RAG）系统以粗粒度（整个图像或场景）检索证据，导致与细粒度用户查询不匹配，并使失败无法验证。我们引入了GranuVistaVQA，这是一个多模态基准，包含具有元素级注释的真实世界地标，涵盖多个视角，捕捉了部分观测挑战，即单个图像仅包含实体的子集。我们进一步提出了GranuRAG，这是一个多粒度框架，通过三个阶段将视觉元素视为一等检索单元：元素级检测与分类、用于证据检索的多粒度跨模态对齐以及属性约束生成。通过将检索锚定在元素级别而非依赖隐式注意力，我们的方法实现了透明的错误诊断。实验表明，GranuRAG在此任务上相较于六个强基线实现了高达29.2%的提升。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:25

# 从场景到元素：可验证多模态RAG的多粒度证据检索
来源：https://arxiv.org/html/2605.15019
陈冠华，黄楚月¹¹脚注标记:1，姚雨桐，刘书栋，宋雪晴， Lidia S. Chao， Derek F. Wong NLP2CT实验室，澳门大学计算机与信息科学系 \{nlp2ct.guanhua, nlp2ct.chuyue, nlp2ct.yutong, nlp2ct.shudong, xqsongangie\}@gmail.com \{derekfw, lidiasc\}@um.edu.mo

###### 摘要

多模态检索增强生成（RAG）系统以粗粒度（整张图片或场景）检索证据，这与细粒度的用户查询存在不匹配，导致故障无法验证。我们提出**GranuVistaVQA**，一个以真实世界地标为特色的多模态基准数据集，包含跨多个视角的元素级标注，捕捉了单个图像仅包含实体子集的局部观测挑战。我们进一步提出**GranuRAG**，一个多粒度框架，通过三个阶段将视觉元素视为一等检索单元：元素级检测与分类、用于证据检索的多粒度跨模态对齐，以及归因约束生成。通过将检索锚定在元素层面而非依赖隐式注意力，我们的方法实现了透明的错误诊断。实验表明，GranuRAG在此任务上相比六个强基线方法实现了高达29.2%的提升。

从场景到元素：可验证多模态RAG的多粒度证据检索

陈冠华††感谢:同等贡献，黄楚月¹¹脚注标记:1，姚雨桐，刘书栋，宋雪晴，Lidia S. Chao，Derek F. Wong††感谢:通讯作者。NLP2CT实验室，澳门大学计算机与信息科学系\{nlp2ct.guanhua, nlp2ct.chuyue, nlp2ct.yutong, nlp2ct.shudong, xqsongangie\}@gmail.com\{derekfw, lidiasc\}@um.edu.mo

## 1 引言

多模态大语言模型（MLLMs）在视觉理解方面取得了重大进展 Alayrac 等人 (2022); Li 等人 (2023)。然而，它们的推理过程仍然不透明且容易产生幻觉 Bai 等人 (2024)。虽然检索增强生成（RAG）通过将生成过程建立在外部证据之上来缓解这一问题 Lewis 等人 (2020); Chen 等人 (2025a)，但当前的多模态扩展以粗粒度操作，检索整张图片、场景或页面 Fang 等人 (2024); Yu 等人 (2025a)。这导致了一个根本性的归因鸿沟。用户询问关于巴洛克风格山花，可能收到一张建筑照片，但双方都无法验证该山花是否出现在图片中，检索到的知识是否相关，或者答案是否忠实地反映了这些输入。检测失败、检索错误和生成幻觉都混入了一个不透明的黑箱中。

在这项工作中，我们认为可验证的多模态RAG需要将视觉元素视为一等检索目标，而不仅仅是需在检索场景中隐式关注的区域。尽管最近的接地模型可以定位物体 Peng 等人 (2023); Guo 等人 (2024)，但它们依赖于参数化知识，并不检索外部证据。相反，现有的多模态RAG系统检索证据，但缺乏显式的元素级接地，即使是最近的细粒度方法 Liu 等人 (2025) 也优先考虑表示的表达性而非透明的归因。我们通过“先检测后检索”的方法弥合这一差距：首先通过开放词汇检测检测候选视觉元素，然后组装跨越元素级描述和全局上下文的分层证据，最后生成可归因于特定视觉跨度和检索片段的答案。这种设计将评估从黑箱答案评估转变为透明的证据审计：我们可以分别诊断是否正确检测到了元素，是否检索到了相关知识，以及生成是否忠实地遵循了这两者。

表1：我们的数据集与五个类似多模态数据集的比较。然而，现有的基准测试未能充分评估多粒度对齐，如表1所示。关键在于，它们都忽视了真实世界图像固有的局部观测挑战：照片从不同的距离和角度拍摄场景，因此单张图像只描绘了某个位置存在的元素子集。这一挑战遍及从建筑摄影到医学成像和卫星遥感等领域，但现有的基准测试都没有提供所需的监督信号来诊断部分可见性下的元素级检测和检索。为解决这个问题，我们引入了**GranuVistaVQA**，一个以建筑遗产地标为核心的基准数据集。在这个领域中，元素具有明确定义的视觉语义，存在权威知识源，并且多视角局部观测自然地由真实世界摄影产生。该数据集包含71个地标的1,422张图像，每个视图平均仅覆盖34%的已标注元素。关键的是，我们提供了人工验证的元素可见性标签，实现了先前基准测试无法提供的细粒度错误诊断。我们进一步提出GranuRAG，一个“先检测后检索”的框架，通过开放词汇检测定位可见元素，检索分层证据，并生成受归因约束的答案。

实验表明GranuRAG胜过强基线。此外，基于我们流程推理轨迹微调的LLMs，在性能上超越了直接微调和自生成思维链（CoT）Wei 等人 (2022)，这表明显式的多粒度对齐提供了更有效的监督信号。

## 2 相关工作

#### 多模态RAG基准

知识密集型多模态问答已从仅答案评估演变为归因感知评估，要求可验证的证据和局部化失败分析。早期基准 (Marino 等人, 2019; Schwenk 等人, 2022) 确立了对外部知识的需求，但缺乏显式接地。后续数据集增加了结构化监督：ViQuAE (Lerner 等人, 2022) 将检索确定为主要瓶颈；InfoSeek (Chen 等人, 2023) 和 Encyclopedic-VQA (Mensink 等人, 2023) 提供章节级证据，揭示了由于不可靠的实体-章节链接导致的差距。以文档为中心的基准 (Yu 等人, 2025b; Xu 等人, 2025b) 在页面、区域和文档级别粒度进行评估。最近的工作纳入了显式空间监督：BBox-DocVQA (Yu 等人, 2025c) 将答案锚定到语义连贯的区域；Toloka VQA (Ustalov 等人, 2023) 要求对支持答案的对象提供边界框；VISA (Ma 等人, 2024a) 要求在生成期间强制进行视觉来源归因。然而，现有基准缺乏视觉元素与知识条目之间的显式映射。GranuVistaVQA 通过将视觉元素视为核心证据单元，并建立元素级知识对齐以实现细粒度、可验证的归因，从而解决了这一问题。

#### LLM 多模态 RAG 方法

多模态RAG通过更丰富的检索表示、更强的重排序和可控归因而取得进展。统一稠密检索器 (Liu 等人, 2023; Zhou 等人, 2024b, a) 使用联合文本-图像嵌入，但缺乏显式的局部视觉-文本连接。更细粒度的方法 (Lin 等人, 2024; Yang 等人, 2025) 在段落/章节级别操作，元素级接地仍未充分探索。端到端流程 (Chen 等人, 2022; Zhang 等人, 2024b) 通过迭代检索提升召回率，但也会放大噪声。侧重于鲁棒性的方法 (Cui 等人, 2024; Yan and Xie, 2024; Tian 等人, 2025) 解决跨来源协调问题，但在粗粒度单元上进行推理。近期空间控制工作针对特定证据链组件：Locate-Then-Generate (Zhu 等人, 2023) 在场景文本VQA中分离定位与生成；HuLiRAG (Xi 等人, 2025) 通过分割解耦检索与注意力，但缺乏接地-知识连接；GROUNDHOG (Zhang 等人, 2024c) 实现了像素级对齐，但未集成检索；VisRAG 2.0 (Sun 等人, 2025) 改进了多图像推理，但将证据视为不连贯的区域集合；Ferret-v2 (Zhang 等人, 2024a) 实现了细粒度的区域-语言对齐用于图像内理解，但未集成外部知识。相比之下，GranuRAG 将单个元素视为可验证单元，将每个事实断言同时锚定到检测区域和检索片段，从而实现了细粒度对齐，并支持对检测、检索和生成阶段的系统性错误诊断。

## 3 GranuVistaVQA 基准

为了实现具有细粒度归因的可验证多模态RAG，我们构建了一个以城市建筑遗产为中心的知识密集型基准。与将图像视为原子单元的前期数据集不同，我们的设计将视觉元素确立为一等检索目标，并显式建模了局部观测挑战：真实世界的照片从不同视角捕捉地标，每张照片只描绘了具有建筑意义的元素子集。

### 3.1 任务表述

给定一张从任意视角描绘地标的查询图像 I，任务是生成一个全面的描述，涵盖所有可见的建筑元素，同时避免对遮挡或缺失组件的幻觉。

我们将每个地标与三个组件关联：元数据（名称、摘要和风格），提供高层上下文；元素清单 E = {e₁, ..., eₖ}，列出具有建筑意义的组件；以及元素描述 ED: E → 段落，将每个元素映射到专家撰写的文本。对于每张图像 I，真实可见集合 E^gt(I) ⊆ E 包含该视图中视觉可识别的元素。这种表述实现了模块化评估：系统必须 (i) 预测可见元素 Ê(I) ≈ E^gt(I)，(ii) 从 ED 中检索相关描述，以及 (iii) 生成忠实于视觉和文本证据的输出。这种分解使我们能够在每个阶段隔离故障，区分检测错误、检索错误和生成幻觉。

### 3.2 数据收集与标注

#### 领域选择

我们聚焦建筑遗产，基于三个方法论原因：(1) 元素具有明确定义的视觉语义，适合检测；(2) 权威知识源有助于构建可靠的真实数据；(3) 旅游摄影自然展现出多视角局部观测。我们从官方文化遗产数据库中精选了71个地标，涵盖跨越不同建筑传统的宗教建筑、寺庙、防御工事和文化机构。

#### 知识库构建

为每个地标，我们按照两级模式（完整规范见附录 B.1）编译一个结构化的 JSON 文档：

x_landmark = (meta, E, ED)  (1)

文本内容来源于官方旅游门户和百科全书参考文献，然后通过以下方式结构化：(i) 从权威描述中提取元素短语，(ii) 交叉地标规范化以确保术语一致性（例如，“钟楼” ≡ “campanile”），以及 (iii) LLM 辅助的描述生成与人工验证（详情见附录 B.2）。具体而言，我们聚焦澳门的历史遗址，所有描述内容均为中文。

参考说明 (a) 全景
参考说明 (b) 特写
参考说明 (c) 部分

图1：多视角图像示例。
#### 图像收集

我们收集了1,422张照片，确保视角多样性：捕捉整体结构的全景、揭示精细装饰的特写以及倾斜的部分视图（图1）。收集后，我们进行了全面的数据清洗，移除隐私敏感内容，包括水印、可见人脸和个人身份信息。我们还应用了质量过滤，仅保留分辨率 ≥ 512px 且无明显伪影的图像。完整的筛选协议见附录 B.2。

#### 可见性标注

对于每张图像 I，标注员识别 E^gt(I)，遵循严格的可见性标准：

- **视觉可识别性**：仅当元素仅凭像素即可识别，而不依赖事先的地标知识时，才算作符合条件。
- **部分遮挡**：仅当存在可区分性视觉线索时（例如，半露的涡卷若其典型形状明显则算作可见）。
- **歧义处理**：不确定的案例被排除，以避免误报。

我们采用人机协作流程：LLM 提出候选元素，标注员通过添加遗漏元素、移除幻觉元素以及将同义词解析为标准形式进行精炼（协议见附录 B.6）。

| 指标 | 值 |
|------|-----|
| #地标 (L) | 71 |
| #图像 (N) | 1422 |
| 平均每地标图像数 (N/L) | 20.03 |
| #独特元素 (U_E) | 221 |
| 平均每地标元素数 | 3.59 |

表2：我们提出的 GranuVistaVQA 的统计数据。
参考说明 图2：在 GranuVistaVQA 上评估 MLLMs 的结果。† 表示微调后的 LLM。
参考说明 图3：我们提出的 GranuRAG 框架概述。

### 3.3 数据统计与评估

#### 统计

表2总结了数据集的统计数据。多视角设计自然地产生了局部观测。特写捕捉了精细细节但缺失了更广阔的结构，而全景展示了整体布局却丢失了粒状信息（图1）。平均而言，单个图像仅覆盖其地标元素清单的 34%。

从场景到元素：可验证多模态RAG的多粒度证据检索

相似文章

重新思考长视频中的RAG：检索什么以及如何使用？

MM-BizRAG：重新思考面向通用企业问答的多模态检索增强生成

RAG-Anything：全能型 RAG 框架

GridVQA-X：评估多模态可解释性方法的框架

GRACE-RAG：规范证据合成的受控检索架构，支持在封闭领域机构环境中轻量化部署

提交意见反馈