LFRAG：面向布局的多模态文档理解细粒度检索增强生成

arXiv cs.AI 2026/05/25 04:00 论文

摘要

LFRAG提出了一种面向布局的细粒度检索增强生成框架，该框架在多模态文档中从页面级检索转向块级检索，在新提出的LFDocQA基准上实现了最先进的性能，并将令牌数量减少了73%。

arXiv:2605.22829v1 公告类型：交叉摘要：多模态检索增强生成（RAG）已成为一种利用外部知识增强大语言模型（LLM）的有效范式。然而，现有的多模态RAG系统主要依赖于粗粒度的页面级检索，未能捕捉视觉富文档中的细粒度语义和布局结构，从而损害了检索准确性并导致下游任务中出现冗余上下文。为了解决这些问题，我们提出了面向布局的细粒度检索增强生成（LFRAG），这是一种新颖的框架，将多模态RAG从页面级检索推进到块级检索。我们进行布局分割以构建语义连贯的细粒度检索单元，并设计了一个语义-布局融合编码器，通过交叉注意力将局部语义与全局上下文集成。通过块级后期交互检索，LFRAG实现了精确的查询-内容对齐，并减少了用于下游生成的不相关内容。为了进行严格的评估，我们构建了LFDocQA，这是一个大规模基准测试，具有跨多种文档类型的块级标注，旨在比现有数据集更细粒度地评估多模态文档检索和问答。在LFDocQA上进行的大量实验表明，LFRAG在检索任务上实现了最先进的性能，在答案准确率上比最佳基线高出7.20%，并在生成任务中减少了73.07%的令牌消耗，证实了LFRAG在视觉富文档的多模态RAG中是一个准确且高效的框架。我们的代码和数据集将很快发布。

查看原文

查看缓存全文

缓存时间: 2026/05/25 09:00

# LFRAG: 面向布局的细粒度检索增强生成在多模态文档理解中的应用
来源：https://arxiv.org/abs/2605.22829
查看 PDF (https://arxiv.org/pdf/2605.22829)

> 摘要：多模态检索增强生成（RAG）已成为一种有效范式，通过外部知识增强大语言模型（LLMs）。然而，现有的大多数多模态RAG系统主要依赖粗粒度的页面级检索，这无法捕捉视觉丰富文档中的细粒度语义和布局结构，从而降低了检索准确性并导致下游任务中出现冗余上下文。为解决这些问题，我们提出面向布局的细粒度检索增强生成（LFRAG），这是一种新颖框架，将多模态RAG从页面级检索推进到块级检索。我们进行布局分割以构建语义连贯的细粒度检索单元，并设计了一个语义-布局融合编码器，通过交叉注意力机制将局部语义与全局上下文集成。借助块级后期交互检索，LFRAG实现了精确的查询-内容对齐，并减少了下游生成的无关内容。为进行严格评估，我们构建了LFDocQA，这是一个包含块级注释的大规模基准评测集，涵盖多种文档类型，旨在以比现有数据集更高的粒度评估多模态文档检索和问答。在LFDocQA上的大量实验表明，LFRAG在检索任务上达到了最先进性能，在答案准确率上以7.20%的优势超越最佳基线，并在生成任务中将Token消耗减少73.07%，证实了LFRAG是一个针对视觉丰富文档的多模态RAG准确且高效的框架。我们的代码和数据集将很快发布。

## 投稿历史

来自：Yifan Zhu [查看邮件](https://arxiv.org/show-email/c8c7d9b4/2605.22829) **[v1]** 2026年4月18日星期六 05:04:49 UTC (1,038 KB)

LFRAG：面向布局的多模态文档理解细粒度检索增强生成

相似文章

MM-BizRAG：重新思考面向通用企业问答的多模态检索增强生成

LightRAG：简单高效的检索增强生成框架

多模态长对话中的细粒度片段检索

Disco-RAG: 话语感知检索增强生成

Web Retrieval-Aware Chunking (W-RAC)：高效且经济高效的检索增强生成系统分块方法

提交意见反馈