RAG基准应精细到何种程度?一种层次化合成问题生成框架
摘要
本文介绍了HieraRAG,这是一种用于确定RAG基准最优粒度的层次化框架。它生成了跨三个维度的5,872个合成问答对,并发现理想粒度因维度而异,为从业者提供了一种可移植的程序。
arXiv:2606.12789v1 公告类型:新
摘要:评估检索增强生成(RAG)系统需要能够捕捉多样化问题特征的基准,但从业者缺乏关于应在哪些维度上变化以及以何种粒度变化的经验指导。我们提出了HieraRAG,这是一个用于研究RAG基准构建中粒度的层次化框架,将最优粒度定义为在给定RAG配置下最大化区分能力(跨类别的生成质量标准差)的水平。作为案例研究,我们从FineWeb-10BT中生成了5,872个合成问答对,涵盖3个维度(Question Complexity、Answer Type、Linguistic Variation)和3个粒度级别(2、4和8个类别)。使用BM25+Falcon-3-10B管道,最优粒度因维度而异:复杂性受益于细粒度区分(区分能力:0.053),而答案类型和语言变体在中等粒度时达到峰值。我们引入了一个Coherence Ratio指标,用于量化细粒度拆分是否清晰地细分了父类别,揭示了不同维度之间的结构差异(Question Complexity:0.40 vs. Answer Type:1.44)。对110个分层问答对的人工评估确认了合成质量。尽管这些具体发现反映的是单一配置,但HieraRAG为从业者提供了一种可移植的程序和验证指标,以便在其自身的RAG设置中确定评估粒度。
查看缓存全文
缓存时间: 2026/06/12 08:50
# RAG基准的粒度应有多细?面向合成问题生成的分层框架 来源:https://arxiv.org/html/2606.12789 Kaustubh Dhole 计算机科学系 埃默里大学 亚特兰大 美国 [email protected] (mailto:[email protected]), Jason Fan 计算机科学系 埃默里大学 亚特兰大 美国 [email protected] (mailto:[email protected]), Eugene Agichtein 计算机科学系 埃默里大学 亚特兰大 美国 [email protected] (mailto:[email protected]), Joyce C. Ho 计算机科学系 埃默里大学 亚特兰大 美国 [email protected] (mailto:[email protected]) ###### 摘要 评估检索增强生成 (RAG) 系统需要能够捕捉多样化问题特征的基准,但实践者缺乏关于应在哪些维度上变化以及以何种粒度变化的经验指导。我们提出 HieraRAG,一个用于研究 RAG 基准构建粒度的分层框架,将最优粒度定义为在给定 RAG 配置下最大化*判别力*(各类别生成质量的标准差)的层级。作为案例研究,我们从 FineWeb-10BT 生成了 5,872 个合成问答对,涉及 3 个维度(问题复杂度、答案类型、语言变化),每个维度有 3 个粒度层级(2、4 和 8 个类别)。在使用 BM25+Falcon-3-10B 流水线的情况下,最优粒度因维度而异:复杂度维度受益于细粒度区分(判别力:0.053),而答案类型和语言变化在中等粒度时达到峰值。我们引入了一个一致性比率度量,用于量化细粒度划分是否干净地分割了父类别,揭示了维度间的结构性差异(问题复杂度:0.40 vs. 答案类型:1.44)。对 110 个分层 QA 对的人工评估证实了合成质量。虽然这些具体发现仅反映单个配置,但 HieraRAG 为实践者提供了一套可移植的程序和验证指标,以便在其自身的 RAG 环境中确定评估粒度。 检索增强生成,RAG 评估,合成问题生成,问答 ## 1. 引言 检索增强生成 (RAG) 已成为问答系统的主流方法,通过将语言模型的输出锚定在检索到的证据上,以提高事实准确性 (Lewis et al., 2020 (https://arxiv.org/html/2606.12789#bib.bib14))。随着组织在专有语料库(从企业文档到科学文献)上部署 RAG,评估系统性能需要能够捕捉多样化问题特征的基准。近期工作表明,多样性对 RAG 很重要:多样化的检索内容能提升答案质量 (Wang et al., 2025 (https://arxiv.org/html/2606.12789#bib.bib49)),多样化的指令数据能增强模型能力 (Liu et al., 2025 (https://arxiv.org/html/2606.12789#bib.bib50))。但随着合成 QA 生成在 RAG 基准测试中越来越流行 (Filice et al., 2025 (https://arxiv.org/html/2606.12789#bib.bib1); Ip and Vongthongsri, 2025 (https://arxiv.org/html/2606.12789#bib.bib42)),一个基本问题仍然存在:**问题特征应以何种粒度进行变化?** 问答评估已从事实抽取 (Voorhees and Tice, 2000 (https://arxiv.org/html/2606.12789#bib.bib48)) 发展到多跳推理 (Yang et al., 2018 (https://arxiv.org/html/2606.12789#bib.bib45))、多样的答案类型 (Yona et al., 2024 (https://arxiv.org/html/2606.12789#bib.bib41)) 以及多样化的语言表述 (Bolotova et al., 2022 (https://arxiv.org/html/2606.12789#bib.bib44))。这揭示了问题变化的自然维度:复杂度(单跳 vs. 多跳推理)、答案类型(事实型 vs. 抽象型)以及语言变化(词汇对齐、措辞多样性)。然而,现有基准以不一致的粒度处理这些维度。HotpotQA 按答案类型(人物、日期、是/否)分类,但对复杂度的控制有限 (Yang et al., 2018 (https://arxiv.org/html/2606.12789#bib.bib45))。KILT 涵盖了多种任务格式,但缺乏系统性的语言变化 (Petroni et al., 2021 (https://arxiv.org/html/2606.12789#bib.bib47))。我们应该只区分“简单”和“复杂”问题,还是使用更精细的类别,如“事实型”、“多跳”、“推理”和“比较型”?更精细的区分可能会揭示细微的性能差异,但会增加生成成本并带来冗余类别的风险。缺乏经验指导时,设计者可能欠采样失败模式,或使评估信号被冗余区分稀释。 我们通过 HieraRAG 来解决这一差距,这是一个用于合成 RAG QA 基准构建的分层框架,它沿 3 个说明性维度系统性地变化问题:(1) 问题复杂度 (QC), (2) 答案类型 (AT), (3) 语言变化 (LV)。每个维度在 3 个粒度层级评估:粗粒度 (2 个类别)、中粒度 (4 个)、细粒度 (8 个)。与先前固定问题而仅变化答案粒度的工作 (Yona et al., 2024 (https://arxiv.org/html/2606.12789#bib.bib41)) 不同,我们变化问题特征本身,以探索 RAG 系统如何响应现实的查询多样性。为了验证细粒度划分是否结构良好(即干净地分割父类别而不是引入无关约束),我们引入了一个一致性比率度量,类似于聚类的轮廓系数 (Rousseeuw, 1987 (https://arxiv.org/html/2606.12789#bib.bib40))。我们从 FineWeb-10BT 语料库 (Penedo et al., 2024 (https://arxiv.org/html/2606.12789#bib.bib17)) 生成 5,872 个合成问题,并使用 `BM25+Falcon-3-10B` 流水线进行评估。为确保合成问题质量并验证类别分配,两名标注者独立评估了 110 个 QA 对的正确性、可回答性及类别对齐。通过实验,我们探究: - • RQ1: 哪些维度最能区分 RAG 性能? - • RQ2: 更细的粒度是揭示见解还是添加噪音? - • RQ3: 细粒度划分是否结构良好? 我们的发现表明,最优粒度因维度而异:复杂度维度从细粒度区分中受益(8 个类别,*判别力*——在给定粒度层级上各类别生成质量的标准差——达到 0.053),而答案类型和语言变化在中等粒度(4 个类别)达到峰值。一致性比率揭示了维度间的结构性差异(QC: 0.40 vs. AT: 1.44),解释了为何某些维度受益于更细的划分而其他维度则趋于平稳。人工评估确认了高合成质量(98% 可接受),但细粒度类别上的低共识(29% 一致)表明语义模糊性。初步相关分析 (r_pb = 0.24) 表明,我们的数据驱动的一致性比率与这种人工感知相符,为类别分离提供了一个潜在的自动化代理。 我们的贡献包括:(1) 用于确定 RAG 基准最优评估粒度的分层框架,(2) 用于验证分层问题类别结构的一致性比率度量,(3) 在单一 `BM25+Falcon-3-10B` 配置下的经验证据,表明不同问题特征可能需要不同的粒度层级以实现诊断性评估,(4) 一个包含 5,872 个分层组织问题的数据集及可复现代码。¹¹¹https://github.com/fensorechase/rag-diverse-benchmarks-synthetic-qa ## 2. 方法 参见图注 图 1. 三个问题维度(QC, AT, LV)在三个粒度层级上的层次结构。每个维度从粗粒度(2 个类别)细分到中粒度(4 个)再到细粒度(8 个)。示例 QA 中用户专长设为“新手”。 ### 2.1. 问题分类框架 为了在预定义语料库上系统性地评估 RAG 系统在多样化单轮问答场景下的表现,我们采用了一个分层分类框架,捕捉问题变化的 3 个关键维度(图 1 (https://arxiv.org/html/2606.12789#S2.F1)): 1. (1) 问题复杂度 (QC) 衡量回答问题所需的认知需求,范围从简单的事实抽取到多跳推理。 2. (2) 答案类型 (AT) 指示预期的响应格式,区分需要直接提取信息的问题与需要综合或生成新表述的问题。该维度建立在先前关于答案类型和粒度的研究之上 (Yona et al., 2024 (https://arxiv.org/html/2606.12789#bib.bib41))。 3. (3) 语言变化 (LV) 量化问题措辞与文档内容之间的词汇对齐程度,范围从严格匹配的术语到需要语义理解的 paraphrased 概念。 对于每个维度,我们定义了 3 个粒度层级的类别:粗粒度(2 个类别)、中粒度(4 个)、细粒度(8 个)。每个细粒度类别专门化其父类中粒度类别,而中粒度类别又细分自粗粒度类别。每个层级内的类别在生成时是互斥的,尽管我们的一致性分析显示实践中存在语义重叠。这种结构使我们能够评估更细的区分是否能揭示额外的性能变化,从而帮助实践者选择适当的评估粒度。 单维度分配作为一种方法论选择。对于 RQ1 和 RQ2,每个生成的问题在合成时被分配到单一维度。我们采用这种设计以隔离某一维度的影响,但我们承认两个后果。首先,真实问题可以同时沿着所有三个维度被描述;单维度分配是一种简化,而非自然问题的属性。其次,当只沿一个维度生成时,其他两个维度成为不受控制的混杂因素,可能独立于所研究维度改变检索和生成的性能,从而可能压缩或放大所报告的判别力(例如,一个仅按 QC 控制的批次可能偶然包含更多词汇遥远的问题,从而降低其平均 MAP)。RQ3 的析因设计(§3.3 (https://arxiv.org/html/2606.12789#S3.SS3))探讨了其中一种交互。后续通过少样本分类器进行后处理的多标签标注是一个自然的扩展。 ### 2.2. 合成问题生成 我们使用 DataMorgana (Filice et al., 2025 (https://arxiv.org/html/2606.12789#bib.bib1)) 生成了 5,872 个问题,该工具通过利用 Claude 3.5 Sonnet 创建多样化合成 QA 基准。²²²参见我们的补充代码 (Filice et al., 2025 (https://arxiv.org/html/2606.12789#bib.bib1)) 了解合成 QA 生成的详细信息;我们注意到我们的框架也可以利用其他流水线进行合成 QA 生成 (Ip and Vongthongsri, 2025 (https://arxiv.org/html/2606.12789#bib.bib42))。 问题是从 FineWeb-10BT (Penedo et al., 2024 (https://arxiv.org/html/2606.12789#bib.bib17)) 中随机采样的文档生成的,该语料库包含 10B 个 token 和约 15M 篇文档。每个问题包含一个 DataMorgana 生成的参考答案和源文档 ID,用于评估检索和生成质量。 用户专长作为保持变量。在所有三个研究问题中,用户专长在生成时被随机指定(50% 新手,50% 专家),以便观察到的性能差异反映问题特征而非用户级别差异。研究用户角色与问题维度(QC, AT, LV)之间的交互是未来工作的自然扩展。 RQ1: 我们从 4 个维度(QC, AT, LV 和问题措辞(仅 4 个粗粒度类别))使用粗粒度类别生成了 1,600 个问题(每个维度 400 个)。每个问题属于一个维度,从而实现独立评估。我们的维度基于既有的 QA 数据集 (Bolotova et al., 2022 (https://arxiv.org/html/2606.12789#bib.bib44); Yang et al., 2018 (https://arxiv.org/html/2606.12789#bib.bib45); Kwiatkowski et al., 2019 (https://arxiv.org/html/2606.12789#bib.bib46); Petroni et al., 2021 (https://arxiv.org/html/2606.12789#bib.bib47)) 和 RAG 评估框架 (Chen et al., 2024 (https://arxiv.org/html/2606.12789#bib.bib32)) 确定。 RQ2: 我们跨 3 个维度(QC, AT, LV)生成了 3,272 个问题,每个维度有 3 个粒度层级(粗/中/细)。我们专注于这三个维度,因为它们展现出适合多层级细分的层次结构。由于生成随机性,每个类别的样本数量有所不同,但提供了足够的统计效力(每个细粒度类别 n ≥ 38)。 RQ3: 我们以 2×2 析因设计生成了 1,000 个问题,交叉 LV(相似/遥远)和 QC(简单/复杂),每个格子约 250 个问题。 ### 2.3. RAG 系统配置 我们在 NVIDIA H100 上评估标准的两阶段 RAG 流水线。 检索: 我们使用 PyTerrier (Macdonald et al., 2021 (https://arxiv.org/html/2606.12789#bib.bib2)) 索引了 FineWeb-10BT (Penedo et al., 2024 (https://arxiv.org/html/2606.12789#bib.bib17)) 的 512-token 块,并通过 `BM25` 检索 k=10 篇文档。 生成: 我们使用 `Falcon-3-10B-Instruct` (Team, 2024 (https://arxiv.org/html/2606.12789#bib.bib18))(温度=0.6)从检索到的上下文中生成答案,并指示模型在信息不足时拒绝回答。 ### 2.4. 评估指标 我们沿两个维度评估 RAG 系统:检索质量和生成质量 (E et al., 2024 (https://arxiv.org/html/2606.12789#bib.bib35); Chen et al., 2024 (https://arxiv.org/html/2606.12789#bib.bib32))。 检索: 以平均精度均值 (MAP) 为主要指标,nDCG@10 和 Recall@10 衡量真实文档是否出现在前 10 名结果中。 生成: 以余弦相似度 (CS) 为主要指标(使用 MiniLM-L6-v2 嵌入)(Reimers and Gurevych, 2019 (https://arxiv.org/html/2606.12789#bib.bib34)),ROUGE-1 (Lin, 2004 (https://arxiv.org/html/2606.12789#bib.bib13))、BLEU (Papineni et al., 2002 (https://arxiv.org/html/2606.12789#bib.bib12)) 评估与参考答案的答案质量。 判别力: 对于每个粒度层级,我们计算各类别间余弦相似度得分的标准差。标准差越高,表明类别揭示了有意义的性能差异,证明了更细粒度的合理性。 信息含量: 我们计算类别分配与性能分桶之间的归一化互信息 (MI)。MI 越高,表明类别分配对系统性能的信息量越大 (Vinh et al., 2010 (https://arxiv.org/html/2606.12789#bib.bib39))。 层次校准: 在一个维度内,为了验证子类别是否有意义地细分了其父类别,我们引入了一个新颖的*一致性比率*,灵感来自聚类中的轮廓系数 (Rousseeuw, 1987 (https://arxiv.org/html/2606.12789#bib.bib40))。一个*划分*是层次结构中一个父-子组(例如,中粒度类别 summary_or_explanation 被分割为细粒度类别 condensed_summary 和 sentence_extraction)。每个维度总共包含 6 个划分:2 个粗到中粒度划分(每个粗粒度父类别有 2 个中粒度子类别)和 4 个中到细粒度划分(每个中粒度父类别有 2 个细粒度子类别)。对于给定的语料库和跨嵌套类别的一组问题,计算该值。
相似文章
为稳健的 RAG 评估生成无知识泄露的基准测试
本文介绍了 SeedRG,这是一个半合成的基准测试生成管道,旨在通过创建保留推理结构但不在模型参数记忆中的新实例,消除检索增强生成 (RAG) 评估中的知识泄露。
ContextRAG:面向检索增强生成的无抽取层次图构建
ContextRAG引入了一种无抽取方法,用于构建面向检索增强生成的层次图索引。该方法利用残差量化K均值(Residual-Quantization K-Means)和形式概念分析(Formal Concept Analysis),将大语言模型(LLM)调用和Token数量减少数个数量级,同时在多跳问题上保持具有竞争力的F1分数。
"大多数 RAG 基准测试对真实世界的语料库存在误导" 来自3个生产网站的测试数据。
本文认为,大多数 RAG 基准测试具有误导性,因为它们假设语料库质量均匀,而真实世界的语料库在内容密度上差异很大。利用来自三个生产网站的数据,本文展示了一种分层方法和“产出分数”可以更好地预测检索效果。
Adaptive Chunking:为RAG优化分块方法选择
介绍Adaptive Chunking,一个利用五项文档内在指标为RAG选择最佳分块策略的框架,将答案正确率从62-64%提升至72%,并将问题解决率提高超过30%。
FAB-Bench:面向半导体制造的自适应RAG基准评估框架
FAB-Bench是一个用于评估半导体制造中检索增强生成(RAG)系统的基准框架,包含六项诊断指标和跨上下文窗口的分析。它提供了200个精选的问答对,并揭示了上下文缩放行为和注意力稀释问题。