结构促进检索、重排序与生成

arXiv cs.CL 论文

摘要

本文提出SF-Re2G方法,通过利用文档结构来增强检索、重排序和生成,从而改进基于文档的对话系统。该方法在中英文数据集上得到验证。

arXiv:2606.03247v1 公告类型:新论文 摘要:基于文档的对话系统(DGDS)利用外部文档中的知识来回答特定领域的用户问题。现有解决方案通常将文档划分为独立的段落进行检索和回复生成。然而,这种方法既未能充分利用文档内部的结构信息,也未能为知识选择和回复提供足够的文档上下文。本文提出SF-Re2G以系统性地解决这些问题。首先,我们通过将段落与同一节中的其他段落进行对比来改进段落表示,从而提升检索性能。其次,我们构建了一个结构增强的重排序器,利用同一对话轮次中的多个支撑段落往往位于相邻位置的特性。具体来说,检索到的候选段落根据文档结构被组织成子图。重排序器将结合其所在组的信息对候选段落重新打分。最后,选中的段落用于生成回复,同时考虑子图上下文以改善生成效果。在两个DGDS数据集上的实验结果验证了该方法在中英文场景下的有效性。
查看原文
查看缓存全文

缓存时间: 2026/06/03 09:38

# 结构促进检索、重排序与生成
来源:https://arxiv.org/abs/2606.03247
查看 PDF(https://arxiv.org/pdf/2606.03247)

> **摘要**:文档基础对话系统(DGDS)利用外部文档中的知识来回答特定领域的用户问题。现有解决方案通常将文档分割为独立段落用于检索和回复生成。然而,这种方法既未能充分利用文档中的结构信息,也无法为知识选择和回复提供足够的(文档)上下文。本文提出 SF-Re2G 以系统性地解决这些问题。首先,我们通过将段落与同节其他段落进行对比,改进段落表示,从而提升检索性能。其次,构建了一个结构增强的重排序器,利用同一对话轮次的多个基础段落往往位于相同邻域这一事实。具体地,检索结果中的候选段落根据文档结构被分组为子图。重排序器将结合其分组信息对候选段落重新评分。最后,利用选中的段落生成回复,并考虑子图上下文以提升生成质量。在两个 DGDS 数据集上的实验结果验证了该方法在中文和英文场景下的有效性。

## 提交历史

来自:张徐杰 [查看邮箱(https://arxiv.org/show-email/1a0e14e6/2606.03247)] **[v1]** 2026年6月2日 星期二 07:09:41 UTC(8,382 KB)

相似文章

Disco-RAG: 话语感知检索增强生成

arXiv cs.CL

Disco-RAG 提出了一个话语感知的检索增强生成框架,通过块内话语树和块间修辞图整合话语信号,以改进大语言模型的知识综合能力。该方法在问答和摘要生成基准测试中达到最先进的效果,无需微调。