LFRAG:面向布局的多模态文档理解细粒度检索增强生成

arXiv cs.AI 论文

摘要

LFRAG提出了一种面向布局的细粒度检索增强生成框架,该框架在多模态文档中从页面级检索转向块级检索,在新提出的LFDocQA基准上实现了最先进的性能,并将令牌数量减少了73%。

arXiv:2605.22829v1 公告类型:交叉 摘要:多模态检索增强生成(RAG)已成为一种利用外部知识增强大语言模型(LLM)的有效范式。然而,现有的多模态RAG系统主要依赖于粗粒度的页面级检索,未能捕捉视觉富文档中的细粒度语义和布局结构,从而损害了检索准确性并导致下游任务中出现冗余上下文。为了解决这些问题,我们提出了面向布局的细粒度检索增强生成(LFRAG),这是一种新颖的框架,将多模态RAG从页面级检索推进到块级检索。我们进行布局分割以构建语义连贯的细粒度检索单元,并设计了一个语义-布局融合编码器,通过交叉注意力将局部语义与全局上下文集成。通过块级后期交互检索,LFRAG实现了精确的查询-内容对齐,并减少了用于下游生成的不相关内容。为了进行严格的评估,我们构建了LFDocQA,这是一个大规模基准测试,具有跨多种文档类型的块级标注,旨在比现有数据集更细粒度地评估多模态文档检索和问答。在LFDocQA上进行的大量实验表明,LFRAG在检索任务上实现了最先进的性能,在答案准确率上比最佳基线高出7.20%,并在生成任务中减少了73.07%的令牌消耗,证实了LFRAG在视觉富文档的多模态RAG中是一个准确且高效的框架。我们的代码和数据集将很快发布。
查看原文
查看缓存全文

缓存时间: 2026/05/25 09:00

# LFRAG: 面向布局的细粒度检索增强生成在多模态文档理解中的应用
来源:https://arxiv.org/abs/2605.22829
查看 PDF (https://arxiv.org/pdf/2605.22829)

> 摘要:多模态检索增强生成(RAG)已成为一种有效范式,通过外部知识增强大语言模型(LLMs)。然而,现有的大多数多模态RAG系统主要依赖粗粒度的页面级检索,这无法捕捉视觉丰富文档中的细粒度语义和布局结构,从而降低了检索准确性并导致下游任务中出现冗余上下文。为解决这些问题,我们提出面向布局的细粒度检索增强生成(LFRAG),这是一种新颖框架,将多模态RAG从页面级检索推进到块级检索。我们进行布局分割以构建语义连贯的细粒度检索单元,并设计了一个语义-布局融合编码器,通过交叉注意力机制将局部语义与全局上下文集成。借助块级后期交互检索,LFRAG实现了精确的查询-内容对齐,并减少了下游生成的无关内容。为进行严格评估,我们构建了LFDocQA,这是一个包含块级注释的大规模基准评测集,涵盖多种文档类型,旨在以比现有数据集更高的粒度评估多模态文档检索和问答。在LFDocQA上的大量实验表明,LFRAG在检索任务上达到了最先进性能,在答案准确率上以7.20%的优势超越最佳基线,并在生成任务中将Token消耗减少73.07%,证实了LFRAG是一个针对视觉丰富文档的多模态RAG准确且高效的框架。我们的代码和数据集将很快发布。

## 投稿历史

来自:Yifan Zhu [查看邮件](https://arxiv.org/show-email/c8c7d9b4/2605.22829) **[v1]** 2026年4月18日星期六 05:04:49 UTC (1,038 KB)

相似文章

Disco-RAG: 话语感知检索增强生成

arXiv cs.CL

Disco-RAG 提出了一个话语感知的检索增强生成框架,通过块内话语树和块间修辞图整合话语信号,以改进大语言模型的知识综合能力。该方法在问答和摘要生成基准测试中达到最先进的效果,无需微调。

上下文优化下的检索增强生成:从梯度下降视角

arXiv cs.CL

本文研究检索增强生成作为上下文优化过程,表明线性自注意力可以在统一的RAG目标上实现梯度下降。它提出了一种轻量级方法,适用于冻结的RAG大语言模型,通过预测上下文条件的更新,在多个问答基准上提升了性能。

HKUDS/RAG-Anything

GitHub Trending (daily)

HKUDS 发布 RAG-Anything:基于 LightRAG 的开源一站式多模态检索增强生成框架。