结构促进检索、重排序与生成
摘要
本文提出SF-Re2G方法,通过利用文档结构来增强检索、重排序和生成,从而改进基于文档的对话系统。该方法在中英文数据集上得到验证。
arXiv:2606.03247v1 公告类型:新论文
摘要:基于文档的对话系统(DGDS)利用外部文档中的知识来回答特定领域的用户问题。现有解决方案通常将文档划分为独立的段落进行检索和回复生成。然而,这种方法既未能充分利用文档内部的结构信息,也未能为知识选择和回复提供足够的文档上下文。本文提出SF-Re2G以系统性地解决这些问题。首先,我们通过将段落与同一节中的其他段落进行对比来改进段落表示,从而提升检索性能。其次,我们构建了一个结构增强的重排序器,利用同一对话轮次中的多个支撑段落往往位于相邻位置的特性。具体来说,检索到的候选段落根据文档结构被组织成子图。重排序器将结合其所在组的信息对候选段落重新打分。最后,选中的段落用于生成回复,同时考虑子图上下文以改善生成效果。在两个DGDS数据集上的实验结果验证了该方法在中英文场景下的有效性。
查看缓存全文
缓存时间: 2026/06/03 09:38
# 结构促进检索、重排序与生成 来源:https://arxiv.org/abs/2606.03247 查看 PDF(https://arxiv.org/pdf/2606.03247) > **摘要**:文档基础对话系统(DGDS)利用外部文档中的知识来回答特定领域的用户问题。现有解决方案通常将文档分割为独立段落用于检索和回复生成。然而,这种方法既未能充分利用文档中的结构信息,也无法为知识选择和回复提供足够的(文档)上下文。本文提出 SF-Re2G 以系统性地解决这些问题。首先,我们通过将段落与同节其他段落进行对比,改进段落表示,从而提升检索性能。其次,构建了一个结构增强的重排序器,利用同一对话轮次的多个基础段落往往位于相同邻域这一事实。具体地,检索结果中的候选段落根据文档结构被分组为子图。重排序器将结合其分组信息对候选段落重新评分。最后,利用选中的段落生成回复,并考虑子图上下文以提升生成质量。在两个 DGDS 数据集上的实验结果验证了该方法在中文和英文场景下的有效性。 ## 提交历史 来自:张徐杰 [查看邮箱(https://arxiv.org/show-email/1a0e14e6/2606.03247)] **[v1]** 2026年6月2日 星期二 07:09:41 UTC(8,382 KB)
相似文章
Structure-Aware RAG: 用于对话代理的噪声数据结构化检索增强生成
提出Structure-Aware RAG (SA-RAG),它使用表格作为中间结构化表示来减少对话代理检索增强生成中的噪声,结合了质量感知的元数据生成和两种表格生成方法,在噪声真实世界数据集上优于现有基线。
LFRAG:面向布局的多模态文档理解细粒度检索增强生成
LFRAG提出了一种面向布局的细粒度检索增强生成框架,该框架在多模态文档中从页面级检索转向块级检索,在新提出的LFDocQA基准上实现了最先进的性能,并将令牌数量减少了73%。
Disco-RAG: 话语感知检索增强生成
Disco-RAG 提出了一个话语感知的检索增强生成框架,通过块内话语树和块间修辞图整合话语信号,以改进大语言模型的知识综合能力。该方法在问答和摘要生成基准测试中达到最先进的效果,无需微调。
面向金融文档问答的代理式检索增强生成
本文介绍了 FinAgent-RAG,这是一个用于金融文档问答的代理式框架,它结合了迭代检索、程序化思维推理和自适应资源分配,以提高准确性并降低成本。
LightRAG:简单高效的检索增强生成框架
本文介绍了 LightRAG,这是一个开源框架,通过整合图结构来提升检索增强生成(RAG)的上下文感知能力与信息检索效率。