Disco-RAG: 话语感知检索增强生成

arXiv cs.CL 2026/04/20 04:00 论文

摘要

Disco-RAG 提出了一个话语感知的检索增强生成框架，通过块内话语树和块间修辞图整合话语信号，以改进大语言模型的知识综合能力。该方法在问答和摘要生成基准测试中达到最先进的效果，无需微调。

arXiv:2601.04377v5 公告类型：替换摘要：检索增强生成 (RAG) 已成为增强大语言模型 (LLM) 在知识密集型任务中表现的重要手段。然而，大多数现有的 RAG 策略以扁平、非结构化的方式处理检索到的文本段落，这妨碍了模型捕获结构线索的能力，并限制了其从分散于多个文档中的证据中综合知识的能力。为了克服这些局限，我们提出了 Disco-RAG，一个显式地将话语信号注入生成过程的话语感知框架。我们的方法构建块内话语树来捕获局部层次结构，并构建块间修辞图来建模跨文本段落的连贯性。这些结构被联合集成到一个规划蓝图中来条件化生成过程。在问答和长文档摘要生成基准测试上的实验表明了我们方法的有效性。Disco-RAG 在这些基准测试上取得了最先进的结果，无需微调。这些发现强调了话语结构在推进 RAG 系统中的重要作用。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:32

# Disco-RAG: 话语感知的检索增强生成

来源：https://arxiv.org/html/2601.04377

Dongqi LiuΩ\OmegaΘ\Theta,Hang DingΔ\Delta,Qiming FengΓ\Gamma,Xurong XieΨ\Psi,Zhucun XueΨ\Psi, Chengjie WangΘ\Theta,Jian LiΘ\Theta,Jiangning ZhangΘ\Theta22footnotemark:2,Yabiao WangΨ\PsiΘ\Theta22footnotemark:2

Ω\OmegaSaarland University,Δ\DeltaShanghai Jiaotong University Γ\GammaFudan University,Ψ\PsiZhejiang University,Θ\ThetaTencent YouTu Lab

###### 摘要

检索增强生成（RAG）已成为增强大语言模型（LLM）在知识密集型任务中性能的重要手段。然而，大多数现有的RAG策略以平面、非结构化的方式处理检索到的段落，这阻止了模型捕捉结构线索，并限制了其从分散在不同文档中的证据综合知识的能力。为了克服这些局限，我们提出Disco-RAG，一个显式地将话语信号注入生成过程的话语感知框架。我们的方法构建块内话语树以捕捉局部层级关系，并建立块间修辞图来模型化跨段落的连贯性。这些结构被联合集成到一个规划蓝图中，以指导生成过程。在问答和长文档摘要基准上的实验显示了我们方法的有效性。Disco-RAG在这些基准上无需微调即可达到最先进的效果。这些发现强调了话语结构在推进RAG系统中的重要作用。项目信息可在https://dongqi.me/projects/Disco-RAG获取。

Disco-RAG: 话语感知的检索增强生成

Dongqi LiuΩ\OmegaΘ\Theta††thanks:🖂dongqi@lst\.uni-saarland\.de, Hang DingΔ\Delta, Qiming FengΓ\Gamma, Xurong XieΨ\Psi, Zhucun XueΨ\Psi,Chengjie WangΘ\Theta,Jian LiΘ\Theta††thanks:通讯作者,Jiangning ZhangΘ\Theta22footnotemark:2,Yabiao WangΨ\PsiΘ\Theta22footnotemark:2

Ω\OmegaSaarland University,Δ\DeltaShanghai Jiaotong University,Γ\GammaFudan University,Ψ\PsiZhejiang University,Θ\ThetaTencent YouTu Lab

## 1 引言

大语言模型（LLM；Tourvron等（https://arxiv.org/html/2601.04377#bib.bib1）；Yang等（https://arxiv.org/html/2601.04377#bib.bib2）；Achiamⅰ等（https://arxiv.org/html/2601.04377#bib.bib3））的出现推进了自然语言处理（NLP）的研究，在包括问答（Wu等,2025a（https://arxiv.org/html/2601.04377#bib.bib4）；Lee等,2025a（https://arxiv.org/html/2601.04377#bib.bib5）；Zhang等,2025b（https://arxiv.org/html/2601.04377#bib.bib6））、文档摘要（Mondshine等,2025（https://arxiv.org/html/2601.04377#bib.bib8）；Liu等,2025a（https://arxiv.org/html/2601.04377#bib.bib7）；Wang等,2025a（https://arxiv.org/html/2601.04377#bib.bib9）；Luo等,2025（https://arxiv.org/html/2601.04377#bib.bib10））和文本生成（Duong等,2025（https://arxiv.org/html/2601.04377#bib.bib11）；Bigelow等,2025（https://arxiv.org/html/2601.04377#bib.bib12）；Que和Rong,2025（https://arxiv.org/html/2601.04377#bib.bib13）；Zhang等,2025a（https://arxiv.org/html/2601.04377#bib.bib14））等多种任务上取得了竞争性的性能。然而，由于依赖于静态训练语料库，LLM在知识密集型场景中可能存在不足，比如处理领域特定知识、专有数据或需要实时更新的信息（Chang等,2025（https://arxiv.org/html/2601.04377#bib.bib15）；Lee等,2025b（https://arxiv.org/html/2601.04377#bib.bib16）；Yue等,2025（https://arxiv.org/html/2601.04377#bib.bib17）；Wang等,2024b（https://arxiv.org/html/2601.04377#bib.bib18）；Xia等,2025（https://arxiv.org/html/2601.04377#bib.bib19）；Ding等,2026（https://arxiv.org/html/2601.04377#bib.bib94）；Chen等,2026（https://arxiv.org/html/2601.04377#bib.bib93））。

检索增强生成（RAG）已被提出作为合适的策略，通过基于检索的机制集成外部知识组件（Lewis等,2020（https://arxiv.org/html/2601.04377#bib.bib21）；Asai等,2024（https://arxiv.org/html/2601.04377#bib.bib22）；Chan等,2024（https://arxiv.org/html/2601.04377#bib.bib20））。

参考图1

**图1：** 标准RAG与Disco-RAG的比较。标准RAG检索没有结构链接的隔离块，而Disco-RAG将证据组织成话语结构（树和图）。这里，S表示Satellite（补充部分），N表示Nucleus（核心部分）。

在标准RAG管道中，外部文档被分割成多个块，然后编码为向量并存储在数据库中。在查询时，检索相关块以为LLM提供上下文基础（Lewis等,2020（https://arxiv.org/html/2601.04377#bib.bib21））。现有RAG系统的一个重要但处理不足的局限涉及检索粒度与生成理解之间的不匹配。虽然检索模块返回相关块，但这些块经常在话语中是碎片化的，看起来像没有清晰逻辑联系的分散证据（Edge等,2024（https://arxiv.org/html/2601.04377#bib.bib23）；Su等,2025（https://arxiv.org/html/2601.04377#bib.bib24））。这表现在两个层面。首先，**块内结构盲点**：在每个块内，RAG系统可能无法捕捉内部话语。其次，**块间连贯性间隙**：跨多个块，RAG系统可能难以识别修辞连接。如图1（https://arxiv.org/html/2601.04377#S1.F1）（左）所示，块A提到了12%的较低发病率，而块B指出没有显著的总体效应。不认识到前者是条件发现（例如，在冬季营养不足的成人中），标准RAG往往会过度泛化并错误地得出维生素D降低流感风险的结论。这些缺陷阻止了对相互冲突的主张的有效解决，因为标准RAG方法缺乏通过更高层次的因果流来组织检索证据的能力。这使最终的LLM生成器需要处理一堆事实，而不是连贯的推理过程。

最近的研究表明，将话语知识集成到LLM中可以改进下游性能（Gautam等,2024（https://arxiv.org/html/2601.04377#bib.bib56）；Liu和Demberg,2024（https://arxiv.org/html/2601.04377#bib.bib44））并缓解幻觉问题（Liu等,2025b（https://arxiv.org/html/2601.04377#bib.bib78））。这些发现突出了仅依赖平面序列表示的缺点，并强调了话语对上下文工程的益处（Ma等,2025（https://arxiv.org/html/2601.04377#bib.bib58）；Mei等,2025（https://arxiv.org/html/2601.04377#bib.bib84））。基于这些认识，本工作旨在调查在RAG背景下，显式建模和提供话语信息给LLM是否能改进生成质量。为了回答这个问题，我们提出Disco-RAG，一个为每个检索块构建本地话语树，并推断块间的块间连贯关系以形成修辞图的框架。为了综合信息而不仅仅是连接信息，文本生成器不仅需要理解证据之间的关系，还需要策划如何呈现它们。这需要一个高层次的计划来编排叙事流。因此，我们引入了一个话语感知的规划模块，使模型能够动态地生成一个计划来指导生成。如图1（https://arxiv.org/html/2601.04377#S1.F1）（右）所示，话语感知的过程使模型能够推断维生素D并非普遍有效，但可能在特定条件下使营养不足的成人受益，从而产生更忠实的答案并与基础证据相符。

在我们的实验中，我们在三个基准上评估Disco-RAG：Loong（Wang等,2024a（https://arxiv.org/html/2601.04377#bib.bib47））、ASQA（Stelmakh等,2022（https://arxiv.org/html/2601.04377#bib.bib48））和SciNews（Liu等,2024（https://arxiv.org/html/2601.04377#bib.bib49））。与标准RAG系统和最先进（SOTA）方法相比，我们观察到一致的改进。在Loong基准上，我们的方法在LLM Score上实现了12.74个点的总体收益。在ASQA数据集上，我们的方法在精确匹配和ROUGE-L Score上超过了最好的现有系统。在SciNews基准上，Disco-RAG在大多数评估指标上建立了新的SOTA性能。

总之，我们的贡献如下：

- •我们提出Disco-RAG，一个推理时策略，显式地将话语知识注入RAG管道以缓解块级证据和话语级推理之间的差异。
- •我们提出一个建模方法，结合块内话语树、块间修辞图和话语驱动的计划来捕捉本地层级、跨段落连贯性和论证流。
- •我们在知识密集型QA和摘要任务上进行实验，相比强RAG基线展示一致的改进。分析研究进一步确认了话语感知指导在增强生成正确性、连贯性和保真度中的有效性。

## 2 相关工作

### 2.1 结构感知的检索增强生成

检索增强生成（RAG）通过检索外部证据来增强LLM在知识密集型任务中的性能（Lewis等,2020（https://arxiv.org/html/2601.04377#bib.bib21））。然而，常规RAG方法通常将检索的块视为孤立的平面序列，忽视了它们的结构互联。为了缓解这一问题，最近的研究探索了RAG的结构感知变体。基于图的方法（Nigatu等,2025（https://arxiv.org/html/2601.04377#bib.bib26）；Hu等,2025b（https://arxiv.org/html/2601.04377#bib.bib27）；Wu等,2025b（https://arxiv.org/html/2601.04377#bib.bib28）；Zhu等,2025（https://arxiv.org/html/2601.04377#bib.bib29）；Zhou等,2026（https://arxiv.org/html/2601.04377#bib.bib92））如GraphRAG（Edge等,2024（https://arxiv.org/html/2601.04377#bib.bib23））和KG-RAG（Sanmartin,2024（https://arxiv.org/html/2601.04377#bib.bib64））将证据组织成知识图，而后续工作通过模拟人类记忆机制（Gutierrez等,2024（https://arxiv.org/html/2601.04377#bib.bib65）；Gutiérrez等,2025（https://arxiv.org/html/2601.04377#bib.bib66））或丰富图语义（Liang等,2025（https://arxiv.org/html/2601.04377#bib.bib67））改进了检索。其他方法为连贯性构建结构化子图（Mavromatis和Karypis,2025（https://arxiv.org/html/2601.04377#bib.bib75）；Li等,2025a（https://arxiv.org/html/2601.04377#bib.bib68））或采用替代格式，如分层图（Wang等,2026（https://arxiv.org/html/2601.04377#bib.bib69）；Huang等,2025（https://arxiv.org/html/2601.04377#bib.bib70））、语义分块（Wang等,2025b（https://arxiv.org/html/2601.04377#bib.bib25）；Qu等,2025（https://arxiv.org/html/2601.04377#bib.bib30）；Zhao等,2025（https://arxiv.org/html/2601.04377#bib.bib31））、树（Sarthi等,2024（https://arxiv.org/html/2601.04377#bib.bib73））和表格（Lin等,2025（https://arxiv.org/html/2601.04377#bib.bib74））。更多自适应策略根据上下文动态选择结构（Li等,2025b（https://arxiv.org/html/2601.04377#bib.bib50））。尽管取得了这些进展，大多数工作强调表面层的关联（例如，链接实体），同时在很大程度上忽视了管理因果流、证据呈现和结论表述的修辞结构。这阻碍了逻辑深度和话语连贯性，这是我们的工作所寻求解决的问题。

### 2.2 修辞结构理论用于文本生成

修辞结构理论（RST；Mann和Thompson（1987（https://arxiv.org/html/2601.04377#bib.bib32）,1988（https://arxiv.org/html/2601.04377#bib.bib33))))是一个话语框架，建模基本话语单元（EDU）之间的层级依赖关系和修辞关系。它区分了核心和卫星单元，通过阐述、因果和对比等关系连接，形成反映交流意图的树形结构。基础工作（Marcu,1997（https://arxiv.org/html/2601.04377#bib.bib36）,1999（https://arxiv.org/html/2601.04377#bib.bib37）；Mann和Thompson,1987（https://arxiv.org/html/2601.04377#bib.bib32）；Bhatia等,2015（https://arxiv.org/html/2601.04377#bib.bib45）；Hayashi等,2016（https://arxiv.org/html/2601.04377#bib.bib46))))已建立了修辞结构与人类文本规划之间的强相关性（Adewoyinⅰ等,2022（https://arxiv.org/html/2601.04377#bib.bib43))))。后来的研究通过将树转换为依赖图或施加结构约束来利用RST，以改进神经生成模型中的连贯性和一致性（Chistova,2023（https://arxiv.org/html/2601.04377#bib.bib40）；Zeldes等,2025（https://arxiv.org/html/2601.04377#bib.bib38）；Chistova,2024（https://arxiv.org/html/2601.04377#bib.bib39）；Maekawa等,2024（https://arxiv.org/html/2601.04377#bib.bib41)))。更近期的工作将RST集成到LLM中，以改进跨句子推理并增强生成输出的结构完整性和可解释性（Liu等,2023（https://arxiv.org/html/2601.04377#bib.bib42）；Liu和Demberg,2024（https://arxiv.org/html/2601.04377#bib.bib44)))。与浅层话语标记或句子级连接词相比，本工作通过显式编码检索段落的更深层结构并强调层级结构的重要性，将RST建模扩展到RAG设置。

## 3 提议的方法

参考图2

**图2：** Disco-RAG管道：从段落检索（提供上下文）开始，然后是块内RST树解析（捕捉本地话语）、块间修辞图构建（建模全局话语）、修辞规划（蓝图生成）和答案生成（产生最终输出）。

#### 方法概览

我们将标准RAG形式化为条件生成问题。给定查询q和从语料库D中检索的前k个块的集合C(q;D)={c₁,c₂,...,cₖ}，输出为y=arg max_{y'} P(y'|q,C(q;D))，其中P(·)表示答案生成器的条件分布。为了克服检索-连接范式的局限，我们提出Disco-RAG来用修辞解析和话语感知规划增强标准RAG。如图2（https://arxiv.org/html/2601.04377#S3.F2）所示，我们的管道包含三个主要阶段。(1)我们深入每个块cᵢ以通过构建块内RST树tᵢ来揭示其内部逻辑层级，(2)我们拉远视角以通过块间修辞图G映射所有块C之间的关系景观，(3)我们应用一个话语驱动的规划模块，该模块基于T={tᵢ}ᵢ₌₁ᵏ和G设计一个蓝图B来指导最终生成过程。我们假设在相同的检索器和解码条件下，显式注入话语知识可以改进生成文本的正确性、连贯性和事实一致性。这里，修辞建模作为**知识级先验**，而

Disco-RAG: 话语感知检索增强生成

相似文章

LightRAG：简单高效的检索增强生成框架

Structure-Aware RAG: 用于对话代理的噪声数据结构化检索增强生成

RAGA：用于自主知识图谱构建和检索增强生成的阅读与图谱构建智能体

ConflictRAG：检测并解决检索增强生成中的知识冲突

ContextRAG：面向检索增强生成的无抽取层次图构建

提交意见反馈