MM-BizRAG：重新思考面向通用企业问答的多模态检索增强生成

arXiv cs.CL 2026/06/04 04:00 论文

摘要

MM-BizRAG 是一个面向企业问答的多模态检索增强生成系统，通过文档结构感知分割和版式感知解析，在异构企业文档上的表现比以视觉为中心的基线方法最高提升 32%。该论文还提出了 FastRAGEval——一种基于 LLM 的高效评估指标，其与人类判断的对齐程度优于 RAGChecker，且成本更低。

arXiv:2606.04231v1 公告类型：新论文摘要：近年来，多模态检索增强生成（MM-RAG）的研究趋势逐渐转向最小化解析，依赖页面级图像来生成检索器嵌入向量和答案。这种方式虽然高效，但往往忽视了对复杂企业文档中丰富结构化信息的显式处理，而是依赖预训练嵌入或视觉语言模型来隐式捕捉这些结构。在本研究中，我们采取了一种更直接的方法：MM-BizRAG 通过文档结构感知分割主动提取并表示文档结构，该分割机制能够动态地将文档路由至面向不同方向的摄取流水线——对纵向结构文档（如报告）应用显式版式感知解析，对横向结构文档（如幻灯片）则采用整页级表示。统一的 LLM 驱动制品转换流水线结合基于占位符的位置对齐，保留了自然阅读顺序；而推理阶段的多模态组装将检索表示与生成上下文解耦，从而在无需任何微调的情况下生成更丰富、更有依据的答案。在一个大规模异构企业数据集以及两个公开基准（SlideVQA 和 FinRAGBench-V）上的实验表明，MM-BizRAG 始终优于最先进的以视觉为中心的基线方法，最高提升达 32 个百分点，在报告类版式上的提升尤为显著。此外，我们还提出了 FastRAGEval——一种用于细粒度生成召回评估的单次调用 LLM 评判指标，其成本仅为 RAGChecker 的一半，同时实现了更强的人类对齐效果。

查看原文

查看缓存全文

缓存时间: 2026/06/05 02:13

# MM-BizRAG：重新思考面向通用企业问答的多模态检索增强生成

来源：https://arxiv.org/html/2606.04231

Hanoz Bhathena¶ Parin Rajesh Jhaveri¶ Rohan Mittal¶ Prateek Singh¶ Aymen Kallala¶ Rachneet Kaur¶ Yiqiao Jin‖ Zhen Zeng¶ Adwait Ratnaparkhi¶ Denis Kochedykov¶

¶JPMorgan Chase & Co. ‖ Georgia Institute of Technology
[email protected] (https://arxiv.org/html/2606.04231v1/mailto:[email protected])

###### 摘要

多模态检索增强生成（MM-RAG）的最新进展已转向最小化解析，依赖页面级图像来生成检索器嵌入和答案。尽管这种方式效率较高，但往往忽视了对复杂企业文档中丰富结构化信息的显式处理，而是依赖预训练嵌入或视觉语言模型来隐式捕捉此类结构。在本研究中，我们采取了一种更直接的方式：MM-BizRAG 通过**文档结构感知分割**主动提取并表示文档结构，根据文档方向将其动态路由至特定摄取管道——对纵向结构文档（如报告）应用显式布局感知解析，对横向结构文档（如幻灯片）采用整体页面级表示。统一的 LLM 驱动制品转换管道结合基于占位符的位置对齐，保留自然阅读顺序；而推理时的多模态组装将检索表示与生成上下文解耦，无需任何微调即可实现更丰富、更有依据的答案生成。通过在大型异构企业数据集及两个公开基准（SlideVQA 和 FinRAGBench-V）上的实验，MM-BizRAG 相较于最先进的视觉中心基线最高提升 32 个百分点，在报告式布局上尤为突出。此外，我们提出了 **FastRAGEval**——一种用于细粒度生成召回的单次调用 LLM 评判指标，在实现更强人类对齐的同时，将 RAGChecker 的成本降低一半。

---

MM-BizRAG：重新思考面向通用企业问答的多模态检索增强生成

Hanoz Bhathena¶ Parin Rajesh Jhaveri¶ Rohan Mittal¶ Prateek Singh¶ Aymen Kallala¶ Rachneet Kaur¶ Yiqiao Jin‖ Zhen Zeng¶ Adwait Ratnaparkhi¶ Denis Kochedykov¶
¶JPMorgan Chase & Co. ‖ Georgia Institute of Technology
[email protected] (https://arxiv.org/html/2606.04231v1/mailto:[email protected])

## 1 引言

现代 RAG 系统已从纯文本输入扩展至融合多种模态，包括图像、视频和复杂文档图谱 Abootorabi et al.（2025 (https://arxiv.org/html/2606.04231#bib.bib25)）；Mei et al.（2025 (https://arxiv.org/html/2606.04231#bib.bib26)）；Gao et al.（2025 (https://arxiv.org/html/2606.04231#bib.bib27)）；Edge et al.（2024 (https://arxiv.org/html/2606.04231#bib.bib28)），实现了跨多种数据类型的检索与推理。这一演进由 RAG 管道各组件的重大进步所推动，例如：预训练文档布局模型带来的文档解析与布局分析能力提升、长上下文 Nussbaum et al.（2024 (https://arxiv.org/html/2606.04231#bib.bib31)）与多模态嵌入模型 Ma et al.（2024a (https://arxiv.org/html/2606.04231#bib.bib58)）；Xu et al.（2025 (https://arxiv.org/html/2606.04231#bib.bib32)）；Jiang et al.（2024 (https://arxiv.org/html/2606.04231#bib.bib33)）；Yu et al.（2024a (https://arxiv.org/html/2606.04231#bib.bib34)）；Günther et al.（2025 (https://arxiv.org/html/2606.04231#bib.bib35)），以及能够处理交错文本与图像以生成回答的多模态 LLM Han et al.（2025 (https://arxiv.org/html/2606.04231#bib.bib30)）。

企业文档涵盖多种文件类型，包括 PDF、DOCX、PPTX、HTML 页面，每种类型都包含文本、表格和图像的组合，且常以复杂布局交织呈现。近期 MM-RAG 方法已转向最小化解析，仅依赖页面图像来生成检索嵌入，并将其作为 VLM 的输入以生成答案。虽然这种方式高效且简洁——通过将结构理解卸载给 VLM 和多模态嵌入来规避复杂的布局解析——但实验表明效果欠佳：预训练模型难以隐式捕捉复杂企业文档中嵌入的丰富结构化信息，而这些文档通常不在其训练数据范围内。此外，这些管道在文档表示 Gao et al.（2025 (https://arxiv.org/html/2606.04231#bib.bib27)）；Zhang et al.（2025 (https://arxiv.org/html/2606.04231#bib.bib48)）和摄取设计 Sarthi et al.（2024 (https://arxiv.org/html/2606.04231#bib.bib45)）；Jin et al.（2025 (https://arxiv.org/html/2606.04231#bib.bib46)）；Yu et al.（2024a (https://arxiv.org/html/2606.04231#bib.bib34)）；Xiong et al.（2024 (https://arxiv.org/html/2606.04231#bib.bib43)）；Asai et al.（2023 (https://arxiv.org/html/2606.04231#bib.bib44)）方面往往缺乏标准化。

为应对上述挑战，我们提出 MM-BizRAG——一个围绕五项贡献构建的多模态 RAG 框架，其各组件的协同整合形成了一个实质性创新的系统。其核心是**文档结构感知分割**，基于纵向（报告式）或横向（幻灯片式）结构将文档动态路由至不同摄取管道——据我们所知，这一设计在 MM-RAG 文献中尚属首创。统一的 LLM 驱动制品转换管道结合表格和图片的基于占位符的位置对齐，在整个下游推理过程中保持自然阅读顺序。关键在于，MM-BizRAG 通过**推理时多模态组装**将检索时使用的制品表示与答案生成时使用的制品表示解耦，无需冗余索引即可实现更丰富的上下文构建。所有组件的协同集成形成一个开箱即用的系统，无需微调，相较于视觉中心基线最高提升 32 个百分点。

为验证我们管道的有效性，我们通过**受控变体研究**分析了摄取管道中文档表示和嵌入生成策略的变化对 MM-BizRAG 框架下游性能的影响，该研究在固定推理栈的前提下隔离摄取选择的影响。

本研究的主要贡献如下：

- 我们提出 **MM-BizRAG**，一个面向异构多领域企业文档的文档结构感知 MM-RAG 系统，围绕三项核心设计创新构建：（i）**文档结构感知分割**，将文档动态路由至针对特定方向的摄取管道：对纵向结构文档（如报告、申报材料）进行布局感知解析，对横向结构文档（如幻灯片）采用整体幻灯片级表示，保留文本、表格和图像之间的跨模态对齐；（ii）**统一的 LLM 驱动制品转换管道**，结合基于占位符的位置对齐（针对纵向文档），在整个下游推理过程中保持自然阅读顺序；（iii）**推理时多模态组装**，显式将检索时使用的制品表示与多模态生成时组装的制品表示解耦，在不膨胀检索索引的情况下，于推理时构建更丰富、更具上下文依据的生成上下文——这是与现有视觉中心 MM-RAG 方法的核心架构差异。

- 我们提出一项**受控变体研究**，包含三个 MM-BizRAG 设计变体，在固定推理管道的前提下系统地改变摄取转换方式和嵌入策略，提供了一种在 MM-RAG 消融实验中隔离摄取和检索表示选择影响的方法论新框架。我们在一个大型内部企业数据集（涵盖多种文件类型 PDF、Docx、HTML、PPT，复杂布局，30 个业务领域）以及两个公开基准 SlideVQA 和 FinRAGBench-V 上对所有变体进行基准测试，所有变体均以最高 32 个百分点超越强视觉中心 MM-RAG 基线（ColPali、VisRAG），在金融、法律和技术文档的报告式及演示文档格式上均有持续提升。我们推荐的生产变体 TCTE 在召回率上仅比最优配置低 1–3 个百分点，但延迟约为后者的一半（针对纵向文档）。

- 我们提出 **FastRAGEval（FRE）**，一种用于细粒度生成召回的单次调用 LLM 评判指标。与 RAGChecker（RC）Ru et al.（2024 (https://arxiv.org/html/2606.04231#bib.bib14)）不同——后者通过两次顺序 LLM 调用将答案分解为原子声明——FRE 在单次推理中计算精确率、召回率和 F1，在成本和延迟减半的同时，在多项相关性度量上实现了更强的人类判断对齐，并在 200 个人工标注实例上得到验证。

图1：面向纵向和横向结构企业文档的文档结构感知摄取概览。该管道根据文档结构调整解析和分块策略（$Z_{H}$ 和 $Z_{V}$）。不同变体中 $Z_{H}$ 和 $Z_{V}$ 的具体实现详见图2 (https://arxiv.org/html/2606.04231#S2.F2)。

## 2 MM-BizRAG 方法论

本节介绍 MM-BizRAG。我们首先描述文档结构感知摄取策略（第2.1节 (https://arxiv.org/html/2606.04231#S2.SS1)），然后介绍三个 MM-BizRAG 变体（第2.1.3节 (https://arxiv.org/html/2606.04231#S2.SS1.SSS3)）。在每个变体中，我们分别指定用于检索的表示集合和用于生成就绪上下文构建的表示集合；这两个集合在不同变体间有所差异。这种针对检索器和生成器自适应生成不同表示的能力是 MM-BizRAG 的核心所在。

### 2.1 文档结构感知摄取

设 $\mathcal{D}=\{d_{1},d_{2},\dots,d_{N}\}$ 为跨多种文件格式的文档语料库，每个文档可能包含文本内容、表格、图像和布局结构。我们首先使用基于 LLM 的分类器（或在文件元数据包含相关信息时通过确定性方式）为每个文档 $d\in\mathcal{D}$ 分配结构标签 $s(d)\in\{V,H\}$，其中 $V$ 表示纵向结构文档（$D_{V}$），$H$ 表示横向结构文档（$D_{H}$）。该结构感知划分决定了下游表示池的构建策略（图1 (https://arxiv.org/html/2606.04231#S1.F1)）。

#### 2.1.1 纵向文档表示

对于每个 $d_{v}\in\mathcal{D}_{V}$，布局感知解析提取对齐的文本块、表格和页内图片，以构建以下表示。

##### 文本表示

每个已解析页面的文本块 $T_{d_{v},i}$（其中 $i\in\{1,\ldots,|d_{v}|\}$）按阅读顺序拼接为线性化表示 $\mathcal{T}_{d_{v}}=\bigoplus_{i=1}^{|d_{v}|}T_{d_{v},i}$，并在与原始文档中表格和图片对应的位置插入唯一占位符，以保持上下文对齐。

##### 表格表示

每个表格 $k$ 被转换为 Markdown 格式 $m_{k}$，然后传递给 LLM 生成逐行描述 $s_{k}$。表格表示集合为 $\mathcal{R}^{tbl}_{d_{v}}=\{(m_{k},s_{k})\}_{k=1}^{|K_{d_{v}}|}$，其中每个 $(m_{k},s_{k})$ 通过位置指针与 $\mathcal{T}_{d_{v}}$ 中对应的占位符对齐。

##### 图片表示

每张图片 $p$ 由 VLM 处理以生成描述 $s_{p}$ 并过滤非信息性内容（如 logo、装饰性元素）。图片表示集合为 $\mathcal{R}^{pic}_{d_{v}}=\{(p_{j},s_{p_{j}})\}_{j=1}^{|P_{d_{v}}|}$，其中每个 $(p_{j},s_{p_{j}})$ 通过位置指针与 $\mathcal{T}_{d_{v}}$ 中对应的占位符对齐。

##### 页面图像

完整页面图像保留为集合 $\Pi_{d_{v}}=\{\pi_{d_{v},i}\}_{i=1}^{|d_{v}|}$。

##### 表示池

$d_{v}$ 的完整表示池为 $\mathcal{R}_{d_{v}}=\{\mathcal{T}_{d_{v}},\mathcal{R}^{tbl}_{d_{v}},\mathcal{R}^{pic}_{d_{v}},\Pi_{d_{v}}\}$，包含从 $d_{v}$ 中提取的所有制品。

#### 2.1.2 横向文档表示

对于 $d_{h}\in\mathcal{D}_{H}$，不应用显式的布局感知解析。横向文档（通常为演示幻灯片）中的页面是整体语义单元，文本、表格、图片和图表共同传达页面级含义，细粒度的布局分解对复杂演示布局效果不佳。与纵向结构文档不同，幻灯片通常将图片嵌入表格单元格内，跨自由形式空间区域排列内容，阅读顺序有时不清晰，且仅在完整页面级别才具有意义。

##### 页面级表示池

对于 $d_{h}$ 中的每个页面 $i$，我们提取页面图像 $\pi_{d_{h},i}$，并使用 VLM 生成详细文本描述 $\delta_{d_{h},i}$，捕捉所有语义内容：突出文本、视觉元素及其关系。值得注意的是，$\delta_{d_{h},i}$ 是涵盖页面各个方面的综合描述，可视为**基于 LLM 的布局解析**。页面级表示为 $(\delta_{d_{h},i},\pi_{d_{h},i})$。$d_{h}$ 的表示池定义为 $\mathcal{R}_{d_{h}}=\{(\delta_{d_{h},i},\pi_{d_{h},i})\}_{i=1}^{|d_{h}|}$。

#### 2.1.3 转换算子

一旦 $\mathcal{R}_{d_{v}}$ 和 $\mathcal{R}_{d_{h}}$ 构建完成，我们应用文档结构特定的转换算子 $Z_{s(d)}$ 将表示池转换为可检索块集合 $\mathcal{C}_{d}$：$\mathcal{C}_{d}=Z_{s(d)}(\mathcal{R}_{s(d)})$，其中 $s(d)\in\{V,H\}$。算子 $Z_{s(d)}$（i）从 $\mathcal{R}_{s(d)}$ 中组合一部分表示，并（ii）根据所选粒度将其分割为块。块集合 $\mathcal{C}_{d}$ 使用文本嵌入模型（$\mathcal{E}_{t}$）、多模态嵌入模型（$\mathcal{E}_{mm}$）或两者共同进行嵌入。

图2：不同 MM-RAG 变体的嵌入生成策略概览。

### 2.2 MM-BizRAG 变体

基于文档结构感知摄取管道（第2.1节 (https://arxiv.org/html/2606.04231#S2.SS1)），我们探索三个共享相同推理栈的 MM-BizRAG 变体：查询重写器、列表式 LLM 重排序器 Sun et al.（2023 (https://arxiv.org/html/2606.04231#bib.bib23)）和多模态答案生成器 $G$。推理管道详见附录D (https://arxiv.org/html/2606.04231#A4)。

各变体在以下三个维度上有所差异：（i）转换算子 $Z_{V}$ 或 $Z_{H}$ 如何分别从表示池 $\mathcal{R}_{d_{v}}$ 或 $\mathcal{R}_{d_{h}}$ 构建可检索块，（ii）用于索引的嵌入模型

MM-BizRAG：重新思考面向通用企业问答的多模态检索增强生成

相似文章

LFRAG：面向布局的多模态文档理解细粒度检索增强生成

AgenticRAG：面向企业知识库的代理检索

SEMA-RAG：一种用于医学推理的自进化多智能体检索增强生成框架

面向金融文档问答的代理式检索增强生成

RAG-Anything：全能型 RAG 框架

提交意见反馈