Structure-Aware RAG: 用于对话代理的噪声数据结构化检索增强生成
摘要
提出Structure-Aware RAG (SA-RAG),它使用表格作为中间结构化表示来减少对话代理检索增强生成中的噪声,结合了质量感知的元数据生成和两种表格生成方法,在噪声真实世界数据集上优于现有基线。
arXiv:2605.24366v1 Announce Type: new
摘要:大型语言模型(LLMs)已在对话应用中得到广泛采用。然而,它们对参数化知识的依赖限制了在需要动态或特定领域信息的真实场景中的可靠性。检索增强生成(RAG)通过在生成过程中引入外部知识来解决这一局限,但现有的基于文本和基于图的RAG方法往往难以处理噪声或无关的上下文。在这项工作中,我们提出了Structure-aware Retrieval Augmented Generation (SA-RAG),它使用表格作为中间结构化表示,提供了一个紧凑且可控的界面,在保留必要信息的同时减少噪声。我们引入了一个质量感知的表格元数据生成框架,该框架对元数据标准化和有效性进行建模,提高了元数据质量和下游性能。此外,我们探索了基于无训练和有训练的表格生成方法。生成验证和直接偏好优化进一步提高了表格质量,同时保持了语义和结构一致性。在两个噪声真实世界数据集上的实验表明,SA-RAG显著优于现有的RAG基线。我们的代码可在公共仓库中获取。
查看缓存全文
缓存时间: 2026/05/26 09:02
# 结构感知型RAG:面向对话智能体的噪声数据结构化检索增强生成
来源:https://arxiv.org/html/2605.24366
Kaiqiao Han¹,², LuAn Tang², Renliang Sun¹,², Peng Yuan², Wei Cheng², Haoyu Wang², Wei Wang¹, Yizhou Sun¹, Haifeng Chen²
¹UCLA, ²NEC Labs
\{kqhan, sunrenliang, weiwang, yzsun\}@cs\.ucla\.edu,\{ltang, pengyuan, weicheng, haoyuwang, Haifeng\}@nec\-labs\.com
###### 摘要
大型语言模型(LLMs)已在对话应用中广泛采用。然而,它们对参数化知识的依赖限制了在需要动态或领域特定信息的现实场景中的可靠性。检索增强生成(RAG)通过在生成过程中引入外部知识来解决这一限制,但现有的基于文本和基于图的RAG方法常因噪声或无关上下文而表现不佳。在这项工作中,我们提出*结构感知型检索增强生成*(SA-RAG),它使用表格作为中间结构化表示,提供一个紧凑且可控的接口,在保留关键信息的同时减少噪声。我们引入了一种质量感知的表格元数据生成框架,对元数据规范化和有效性进行建模,从而提升元数据质量和下游性能。此外,我们探索了无训练和基于训练的表格生成方法。生成验证和直接偏好优化进一步提高了表格质量,同时保持语义和结构一致性。在两个噪声真实数据集上的实验表明,SA-RAG显著优于现有RAG基线。我们的代码已在匿名仓库中公开提供¹¹¹https://anonymous.4open.science/r/SA-RAG-E789\.
结构感知型RAG:面向对话智能体的噪声数据结构化检索增强生成
## 1 引言
大型语言模型(LLMs)已展现出强大能力,并广泛应用于客服、虚拟助手和问答系统等对话应用中 Liang and Tong (2025) (https://arxiv.org/html/2605.24366#bib.bib110);Zhang et al. (2020) (https://arxiv.org/html/2605.24366#bib.bib132);Adiwardana et al. (2020) (https://arxiv.org/html/2605.24366#bib.bib133);Rome et al. (2024) (https://arxiv.org/html/2605.24366#bib.bib143)。在这些场景中,LLMs能理解用户意图并生成连贯、上下文相关的回复,从而提升用户体验并减少人力投入。除了简单的查询-回复交互,它们还能支持多轮对话、维持对话语境,并根据用户偏好或领域需求调整回复。这种灵活性使其能够部署在医疗、金融、教育和电子商务等多个领域,协助执行推荐、日程安排和决策支持等任务 Yang et al. (2025) (https://arxiv.org/html/2605.24366#bib.bib134);Xie et al. (2026) (https://arxiv.org/html/2605.24366#bib.bib135);Reuters (2025) (https://arxiv.org/html/2605.24366#bib.bib136)。尽管取得了成功,但仅依赖LLMs的参数化知识在实践中往往不够。许多现实场景需要访问外部、动态或领域特定的知识,而这些知识可能在预训练阶段未被捕获 Cuconasu et al. (2024) (https://arxiv.org/html/2605.24366#bib.bib113);Laban et al. (2024) (https://arxiv.org/html/2605.24366#bib.bib114);Bui et al. (2025) (https://arxiv.org/html/2605.24366#bib.bib137)。例如,在对话环境中,知识查询常常与无关内容(例如图1中的非公开应用消息)混合在一起,要求模型从含噪外部源中检索相关事实,而非仅仅依赖记忆的知识。缺乏这种基础时,LLMs经常产生幻觉或过时回复 Hu et al. (2025) (https://arxiv.org/html/2605.24366#bib.bib138)。
检索增强生成(RAG)通过在生成过程中引入从外部知识源检索到的信息来解决这一问题 Lewis et al. (2021) (https://arxiv.org/html/2605.24366#bib.bib124);Sparck Jones (1988) (https://arxiv.org/html/2605.24366#bib.bib131)。基于文本的RAG Lewis et al. (2021) (https://arxiv.org/html/2605.24366#bib.bib124);Sparck Jones (1988) (https://arxiv.org/html/2605.24366#bib.bib131) 检索非结构化文本中的相关段落并将其附加到模型输入中,而基于图的RAG则利用半结构化数据中的实体-关系结构来支持推理 Moreira et al. (2024) (https://arxiv.org/html/2605.24366#bib.bib111);Edge et al. (2024) (https://arxiv.org/html/2605.24366#bib.bib112);Laban et al. (2024) (https://arxiv.org/html/2605.24366#bib.bib114)。然而,现实世界的知识源往往充满噪声且具有冗余性(例如对话中的问候或澄清,图1),这限制了上述两种范式。基于文本的RAG对无关上下文敏感,常常使模型被噪声证据淹没。基于图的RAG Wang et al. (2025) (https://arxiv.org/html/2605.24366#bib.bib125);Edge et al. (2025) (https://arxiv.org/html/2605.24366#bib.bib126) 依赖于准确的实体和关系抽取,在噪声环境中难以实现,并可能导致不完整或错误的图结构。先前的工作尝试通过信息抽取将文本转换为结构化记录,但这通常依赖预定义模式或规则,在噪声对话数据下表现脆弱,抽取错误会传播到检索环节 Mausam et al. (2012) (https://arxiv.org/html/2605.24366#bib.bib139)。这些局限性促使我们需要一种能在过滤噪声的同时组织信息的中间表示。
与自由文本和僵化的图结构相比,表格提供了以属性为中心的组织方式,能够将查询与相关字段对齐,在聚合冗余证据的同时对缺失或错误条目保持鲁棒性。
参考附图说明 图1:SA-RAG与其他方法的比较。在干净且组织良好的数据集(如维基百科风格的语料库)上,大多数现有RAG方法表现竞争力。然而,对话数据天然具有噪声,包含无关轮次、隐式引用和结构不一致性。在此类场景下,传统方法(如基于文本的RAG、图RAG和简单表格RAG)难以有效检索和利用相关信息。相反,我们的结构感知型RAG显式建模并利用底层结构信号,即使在大量对话噪声下也能保持稳健性能。
基于这些问题,我们提出结构感知型检索增强生成(SA-RAG),一种新的RAG范式,在噪声数据中利用表格作为非结构化知识源与LLM生成之间的中间结构化表示。表格沿着有意义的维度提供显式且紧凑的信息组织,从而实现有效的噪声减少、更高的信息密度以及更可控的生成基础。通过充当结构化接口,表格弥合了原始文本与完全符号化表示之间的差距,在表现力与鲁棒性之间提供了有利的权衡。
将表格作为RAG的核心组件引入带来了若干独特挑战,可归纳为三个基本问题:(Q1)如何自动构建高质量的表格元数据,使得生成的表格可用于检索和生成且易于理解?元数据关键地决定了信息的组织、访问方式以及与用户查询的对齐。然而,现有方法要么依赖人工设计的元数据(劳动密集且在不同数据集和评估中常不一致),要么依赖LLM生成的元数据(常出现准确率低和不稳定的问题)。(Q2)如何将来自异构、噪声对话数据的信息可靠地规范化到一致的元数据模式中?在真实对话中,知识源碎片化、冗余且充满噪声,需要仔细规范化以确保语义一致性和鲁棒性。(Q3)在基于LLM的表格生成中,如何同时保持结构稳定性与源对话的语义连贯性?由于生成的表格直接用作检索资源,结构失效(例如属性错位)或语义失效(例如幻觉或属性归属错误的条目)会严重降低下游性能。
为了应对这些挑战,我们设计了SA-RAG框架,包含以下关键组件。在表格元数据生成过程中,我们引入质量评估机制来评估和更新候选元数据,确保仅保留高质量且信息丰富的结构。在该过程中,我们通过迭代生成过程对规范化质量进行建模,实现表格单元格中异构信息的一致对齐。在表格生成阶段,我们同时提供无训练方法和基于训练方法,以确保生成质量和语义一致性。对于无训练方法,我们增加了语义和一致性验证来保证生成质量。对于训练方法,我们采用直接偏好优化(DPO),通过单次训练过程引导模型生成高质量结构化输出,同时确保生成结果满足上述要求。通过这些设计,SA-RAG在噪声真实场景中显著提升了鲁棒性和生成质量,为现有的基于文本和基于图的RAG方法提供了原则性且有效的替代方案。
我们的贡献可总结如下:
- • 我们提出了**结构感知型RAG**(SA-RAG),一种新颖的检索增强生成框架,利用**表格**作为中间结构化表示来提升**对话智能体**的性能。
- • 我们首次聚焦于如何在RAG系统中生成好的表格。我们引入了**质量感知的表格元数据生成机制**,整合了**规范化质量**的作用。我们提出了一种**表格生成策略**,包含无训练方法和训练方法,并辅以**语义和结构一致性约束**。
- • 在两个噪声对话数据集上的实验结果表明,我们的方法在**检索和生成性能**上一致优于强基线RAG方法。进一步的实验表明,与其他方法相比,我们的方法生成了**高质量表格**。
## 2 相关工作
### 2.1 基于结构化数据的检索增强生成
检索增强生成(RAG)通常检索非结构化文本段落来为语言模型提供基础。近期工作将RAG扩展到表格或知识图谱等结构化表示,从而改进证据聚合和多跳推理 Cuconasu et al. (2024) (https://arxiv.org/html/2605.24366#bib.bib113);Laban et al. (2024) (https://arxiv.org/html/2605.24366#bib.bib114);Bui et al. (2025) (https://arxiv.org/html/2605.24366#bib.bib137)。混合神经-符号方法进一步将神经检索与结构化算子结合,以提高事实忠实度和可控性。大多数现有方法侧重于在推理时利用预定义或整理好的表格,假设存在高质量元数据和静态结构 Yin et al. (2020) (https://arxiv.org/html/2605.24366#bib.bib140);Herzig et al. (2020) (https://arxiv.org/html/2605.24366#bib.bib129)。然而,它们很大程度上忽略了如何从含噪、不断演变的对话数据中自动构建和维护结构化表示。相比之下,我们提出了一种元数据质量感知的表格构建流水线,能够从对话证据中自动归纳、规范化和精炼关系表格,从而实现可靠的以表格为中心的检索和生成。
### 2.2 RAG系统中的内容质量评估
数据质量在RAG性能中起关键作用,因为噪声或冗余证据会降低检索质量并导致幻觉输出。先前的工作主要使用查询感知指标评估基于文本的RAG,并通过重排序或过滤策略提高可靠性 Shi et al. (2024) (https://arxiv.org/html/2605.24366#bib.bib115);Cejas et al. (2025) (https://arxiv.org/html/2605.24366#bib.bib116)。然而,这些方法主要作用于非结构化文档,并未显式评估结构化表示的质量。我们的工作通过将质量评估集成到结构构建中来解决这一限制。我们引入了元数据规范化和元数据有效性,以在表格生成过程中评估和调节元数据质量,从而实现更一致、更有效的结构化检索。
## 3 方法
参考附图说明 图2:模型概览。给定用户查询和含噪的多轮对话历史,结构感知型RAG首先通过从原始对话中生成元数据对齐的表格来归纳潜在的结构化知识。然后,框架同时对原始对话及其结构化表示进行联合检索,从而在噪声和冗余下实现稳健的证据选择。最后,生成器根据查询和检索到的结构化证据生成有依据的回复。
### 3.1 问题定义
我们考虑一个对话检索增强生成(RAG)场景,目标是在含噪对话数据下为用户查询生成有依据的回复。
#### 输入。
输入由一个用户查询 \(q\) 和一段历史对话数据 \(\mathcal{D} = \{d_1, d_2, \ldots, d_N\}\) 组成,其中 \(N\) 是对话的数量。每个对话 \(d_i\) 是一个多轮对话,可能包含冗长的描述、无关上下文和冗余信息,关键知识分散在各个轮次中。
#### 生成目标。
给定查询 \(q\),系统必须识别相关对话和相关信息,以支持回复生成器生成回复。最终目标是生成一个事实依据于检索到的对话证据的回复 \(a\),而非依赖参数化知识和幻觉内容。形式上,我们将任务定义为学习一个映射 \(f: (q, \mathcal{D}) \mapsto a\),其中 \(a\) 是由历史对话中包含的信息支持的答案。
### 3.2 模型概览
为了解决对话RAG中的噪声和冗余问题,我们提出**结构感知型检索增强生成**(SA-RAG),这是一个统一框架,利用表格显式建模含噪多轮对话背后潜在的结构化知识。每个对话 \(d_i \in \mathcal{D}\) 关联一个结构化表示 \(M_i\),捕获其关键信息。形式化地,
\[
\mathcal{T} = \mathcal{G}_{\text{table}}(\mathcal{D}, M), \qquad \mathcal{T} = \{T_1, T_2, \ldots, T_N\}.
\]
其中每个 \(T_i\) 是对应于对话 \(d_i\) 的一组元数据对齐的属性-值对,\(M\) 是元数据。这些结构不可直接观察,必须从原始对话文本中推断。SA-RAG 由三个紧密耦合的阶段组成:
1. **质量感知的元数据生成**,从含噪对话中构建有效且规范化的元数据 \(M^\star\);
2. **表格生成策略(无训练和训练方法)**,为每个对话 \(d_i\) 实例化元数据对齐的表格 \(T_i\);相似文章
Disco-RAG: 话语感知检索增强生成
Disco-RAG 提出了一个话语感知的检索增强生成框架,通过块内话语树和块间修辞图整合话语信号,以改进大语言模型的知识综合能力。该方法在问答和摘要生成基准测试中达到最先进的效果,无需微调。
LightRAG:简单高效的检索增强生成框架
本文介绍了 LightRAG,这是一个开源框架,通过整合图结构来提升检索增强生成(RAG)的上下文感知能力与信息检索效率。
RAGA:用于自主知识图谱构建和检索增强生成的阅读与图谱构建智能体
RAGA 是一个由大语言模型驱动的自主智能体,通过“阅读-搜索-验证-构建”的认知循环构建知识图谱,并集成混合符号-向量检索以实现检索增强生成,在科学问答数据集上取得了实验性改进。
ContextRAG:面向检索增强生成的无抽取层次图构建
ContextRAG引入了一种无抽取方法,用于构建面向检索增强生成的层次图索引。该方法利用残差量化K均值(Residual-Quantization K-Means)和形式概念分析(Formal Concept Analysis),将大语言模型(LLM)调用和Token数量减少数个数量级,同时在多跳问题上保持具有竞争力的F1分数。
SEMA-RAG:一种用于医学推理的自进化多智能体检索增强生成框架
SEMA-RAG是一种自进化多智能体RAG框架,用于医学问答,它将解读、探索和裁决解耦为三个专业智能体,在多个基准测试中相较于基线取得了显著的准确率提升。