结构促进检索、重排序与生成

arXiv cs.CL 2026/06/03 04:00 论文

document-grounded-dialogue retrieval reranking generation nlp structure-enhanced

摘要

本文提出SF-Re2G方法，通过利用文档结构来增强检索、重排序和生成，从而改进基于文档的对话系统。该方法在中英文数据集上得到验证。

arXiv:2606.03247v1 公告类型：新论文摘要：基于文档的对话系统（DGDS）利用外部文档中的知识来回答特定领域的用户问题。现有解决方案通常将文档划分为独立的段落进行检索和回复生成。然而，这种方法既未能充分利用文档内部的结构信息，也未能为知识选择和回复提供足够的文档上下文。本文提出SF-Re2G以系统性地解决这些问题。首先，我们通过将段落与同一节中的其他段落进行对比来改进段落表示，从而提升检索性能。其次，我们构建了一个结构增强的重排序器，利用同一对话轮次中的多个支撑段落往往位于相邻位置的特性。具体来说，检索到的候选段落根据文档结构被组织成子图。重排序器将结合其所在组的信息对候选段落重新打分。最后，选中的段落用于生成回复，同时考虑子图上下文以改善生成效果。在两个DGDS数据集上的实验结果验证了该方法在中英文场景下的有效性。

查看原文

查看缓存全文

缓存时间: 2026/06/03 09:38

# 结构促进检索、重排序与生成
来源：https://arxiv.org/abs/2606.03247
查看 PDF（https://arxiv.org/pdf/2606.03247）

> **摘要**：文档基础对话系统（DGDS）利用外部文档中的知识来回答特定领域的用户问题。现有解决方案通常将文档分割为独立段落用于检索和回复生成。然而，这种方法既未能充分利用文档中的结构信息，也无法为知识选择和回复提供足够的（文档）上下文。本文提出 SF-Re2G 以系统性地解决这些问题。首先，我们通过将段落与同节其他段落进行对比，改进段落表示，从而提升检索性能。其次，构建了一个结构增强的重排序器，利用同一对话轮次的多个基础段落往往位于相同邻域这一事实。具体地，检索结果中的候选段落根据文档结构被分组为子图。重排序器将结合其分组信息对候选段落重新评分。最后，利用选中的段落生成回复，并考虑子图上下文以提升生成质量。在两个 DGDS 数据集上的实验结果验证了该方法在中文和英文场景下的有效性。

## 提交历史

来自：张徐杰 [查看邮箱（https://arxiv.org/show-email/1a0e14e6/2606.03247）] **[v1]** 2026年6月2日 星期二 07:09:41 UTC（8,382 KB）

结构促进检索、重排序与生成

相似文章

Structure-Aware RAG: 用于对话代理的噪声数据结构化检索增强生成

LFRAG：面向布局的多模态文档理解细粒度检索增强生成

MM-BizRAG：重新思考面向通用企业问答的多模态检索增强生成

多模态长对话中的细粒度片段检索

Disco-RAG: 话语感知检索增强生成

提交意见反馈