LFRAG:面向布局的多模态文档理解细粒度检索增强生成

arXiv cs.AI 论文

摘要

LFRAG提出了一种面向布局的细粒度检索增强生成框架,该框架在多模态文档中从页面级检索转向块级检索,在新提出的LFDocQA基准上实现了最先进的性能,并将令牌数量减少了73%。

arXiv:2605.22829v1 公告类型:交叉 摘要:多模态检索增强生成(RAG)已成为一种利用外部知识增强大语言模型(LLM)的有效范式。然而,现有的多模态RAG系统主要依赖于粗粒度的页面级检索,未能捕捉视觉富文档中的细粒度语义和布局结构,从而损害了检索准确性并导致下游任务中出现冗余上下文。为了解决这些问题,我们提出了面向布局的细粒度检索增强生成(LFRAG),这是一种新颖的框架,将多模态RAG从页面级检索推进到块级检索。我们进行布局分割以构建语义连贯的细粒度检索单元,并设计了一个语义-布局融合编码器,通过交叉注意力将局部语义与全局上下文集成。通过块级后期交互检索,LFRAG实现了精确的查询-内容对齐,并减少了用于下游生成的不相关内容。为了进行严格的评估,我们构建了LFDocQA,这是一个大规模基准测试,具有跨多种文档类型的块级标注,旨在比现有数据集更细粒度地评估多模态文档检索和问答。在LFDocQA上进行的大量实验表明,LFRAG在检索任务上实现了最先进的性能,在答案准确率上比最佳基线高出7.20%,并在生成任务中减少了73.07%的令牌消耗,证实了LFRAG在视觉富文档的多模态RAG中是一个准确且高效的框架。我们的代码和数据集将很快发布。
查看原文
查看缓存全文

缓存时间: 2026/05/25 09:00

# LFRAG: 面向布局的细粒度检索增强生成在多模态文档理解中的应用
来源:https://arxiv.org/abs/2605.22829
查看 PDF (https://arxiv.org/pdf/2605.22829)

> 摘要:多模态检索增强生成(RAG)已成为一种有效范式,通过外部知识增强大语言模型(LLMs)。然而,现有的大多数多模态RAG系统主要依赖粗粒度的页面级检索,这无法捕捉视觉丰富文档中的细粒度语义和布局结构,从而降低了检索准确性并导致下游任务中出现冗余上下文。为解决这些问题,我们提出面向布局的细粒度检索增强生成(LFRAG),这是一种新颖框架,将多模态RAG从页面级检索推进到块级检索。我们进行布局分割以构建语义连贯的细粒度检索单元,并设计了一个语义-布局融合编码器,通过交叉注意力机制将局部语义与全局上下文集成。借助块级后期交互检索,LFRAG实现了精确的查询-内容对齐,并减少了下游生成的无关内容。为进行严格评估,我们构建了LFDocQA,这是一个包含块级注释的大规模基准评测集,涵盖多种文档类型,旨在以比现有数据集更高的粒度评估多模态文档检索和问答。在LFDocQA上的大量实验表明,LFRAG在检索任务上达到了最先进性能,在答案准确率上以7.20%的优势超越最佳基线,并在生成任务中将Token消耗减少73.07%,证实了LFRAG是一个针对视觉丰富文档的多模态RAG准确且高效的框架。我们的代码和数据集将很快发布。

## 投稿历史

来自:Yifan Zhu [查看邮件](https://arxiv.org/show-email/c8c7d9b4/2605.22829) **[v1]** 2026年4月18日星期六 05:04:49 UTC (1,038 KB)

相似文章

MM-BizRAG:重新思考面向通用企业问答的多模态检索增强生成

arXiv cs.CL

MM-BizRAG 是一个面向企业问答的多模态检索增强生成系统,通过文档结构感知分割和版式感知解析,在异构企业文档上的表现比以视觉为中心的基线方法最高提升 32%。该论文还提出了 FastRAGEval——一种基于 LLM 的高效评估指标,其与人类判断的对齐程度优于 RAGChecker,且成本更低。

多模态长对话中的细粒度片段检索

arXiv cs.CL

本文提出了细粒度片段检索(FFR)这一新任务,旨在长对话中定位语义连贯的多模态片段(文本与图像)。作者提出了基于生成的检索模型 F2RVLM(通过强化学习训练)和两阶段检索系统 FFRS,并构建了新的评测数据集 MLDR。

Disco-RAG: 话语感知检索增强生成

arXiv cs.CL

Disco-RAG 提出了一个话语感知的检索增强生成框架,通过块内话语树和块间修辞图整合话语信号,以改进大语言模型的知识综合能力。该方法在问答和摘要生成基准测试中达到最先进的效果,无需微调。