FAB-Bench:面向半导体制造的自适应RAG基准评估框架
摘要
FAB-Bench是一个用于评估半导体制造中检索增强生成(RAG)系统的基准框架,包含六项诊断指标和跨上下文窗口的分析。它提供了200个精选的问答对,并揭示了上下文缩放行为和注意力稀释问题。
arXiv:2605.26476v1 公告类型:新
摘要:检索增强生成(RAG)已成为知识密集型应用的关键技术,但在垂直领域评估其性能仍面临困难,原因包括领域复杂性、多样化的上下文规模以及严重依赖专家评估——而专家评估成本高、不一致且不可扩展。我们提出了FAB-Bench,一个用于半导体制造中RAG系统自适应基准测试的端到端框架。FAB-Bench定义了六项诊断指标,分别衡量事实准确性、上下文利用、完整性、检索相关性、技术深度和推理一致性。该框架将检索器诊断与生成器级推理分析相结合,覆盖4K至32K token的上下文窗口,量化了随着上下文范围扩大,检索精度和生成保真度如何共同演化。从1300多个生成候选中,我们精选出200个高质量的问答对,涵盖三种合成策略:大海捞针、文档内多主题、跨文档多跳。在四种大语言模型(LLM)和四种RAG框架上的系统评估揭示了三种不同的上下文缩放行为:对数增长、早期饱和和冷启动动态,并识别出注意力稀释是极端上下文长度下性能下降的主要机制。在另外三个生产级RAG系统上的跨框架验证确认了评估的可移植性。
查看缓存全文
缓存时间: 2026/05/27 09:06
# FAB-Bench:面向半导体制造的自适应RAG基准测试框架 来源:https://arxiv.org/html/2605.26476 Jingbin Qian Congwen Yi Min Xia Wen Wu Jun Zhu Jian Guan\* FutureFab\.AI \*andrewg@futurefab\.ai ###### 摘要 检索增强生成(RAG)已成为知识密集型应用的关键技术,但在垂直领域评估其性能仍面临困难,原因包括领域复杂性、多样化的上下文规模,以及对昂贵、不一致且不可扩展的专家评估的严重依赖。我们提出了FAB-Bench,一个用于半导体制造领域RAG系统自适应基准测试的端到端框架。FAB-Bench定义了六个诊断指标,分别衡量事实准确性、上下文利用、完整性、检索相关性、技术深度和推理一致性。该框架将检索器诊断与生成器级推理分析相结合,覆盖4K–32K token的上下文窗口,量化了随着上下文范围扩展,检索精度与生成保真度如何共同演化。从超过1300个候选样本中,我们精选出200个高质量查询-答案对,涵盖三种合成策略:大海捞针、文档内多主题和跨文档多跳。对四个LLM和四个RAG框架的系统性评估揭示了三种不同的上下文缩放行为——对数增长、早期饱和和冷启动动态——并指出在极端上下文长度下,注意力稀释是性能下降的主要机制。跨框架验证在另外三个生产级RAG系统上证实了评估的可移植性。 ††基准数据集可在以下地址获取:https://github.com/FuturefabAI/FAB-Bench *关键词* RAG评估·垂直领域基准·LLM作为评判者·上下文窗口缩放·半导体制造 ## 1 引言 大规模语言模型(LLM)在各种任务中展现出了卓越的能力(Achiam 等,2023 (https://arxiv.org/html/2605.26476#bib.bib1);Brown 等,2020 (https://arxiv.org/html/2605.26476#bib.bib2)),推动了多样化评估基准的发展。早期基准如 GLUE(Wang 等,2018 (https://arxiv.org/html/2605.26476#bib.bib4))和 SuperGLUE(Wang 等,2019 (https://arxiv.org/html/2605.26476#bib.bib5))侧重于自然语言理解任务,包括情感分析、文本理解和问答。MMLU(Hendrycks 等,2021a (https://arxiv.org/html/2605.26476#bib.bib3))将评估扩展到57个学科的广泛知识覆盖,包含15,908道从初级到专业水平的多项选择题,重点在于零样本和少样本评估预训练知识。然而,基准快速饱和显著降低了其区分能力:GPT-3仅达到43.9%的准确率(Brown 等,2020 (https://arxiv.org/html/2605.26476#bib.bib2)),而GPT-4超过了86%(OpenAI,2023 (https://arxiv.org/html/2605.26476#bib.bib42))。为改善语言覆盖,C-Eval(Huang 等,2023 (https://arxiv.org/html/2605.26476#bib.bib6))将该范式扩展到中文,包含52个学科共13,948道题目。尽管具有价值,这些基准存在根本性局限:依赖于静态公开知识,且缺乏检索上下文,使其不适合评估垂直领域的RAG系统。 除通用语言基准外,还提出了更多任务或能力专用的评估。ARC(Clark 等,2018 (https://arxiv.org/html/2605.26476#bib.bib7))使用研究生水平的科学问题评估科学推理;TruthfulQA(Lin 等,2022 (https://arxiv.org/html/2605.26476#bib.bib8))衡量事实可靠性倾向;GSM8K(Cobbe 等,2021 (https://arxiv.org/html/2605.26476#bib.bib9))和MATH(Hendrycks 等,2021b (https://arxiv.org/html/2605.26476#bib.bib10))评估从研究生到竞赛水平的数学推理;HumanEval(Chen 等,2021 (https://arxiv.org/html/2605.26476#bib.bib11))通过164道编程任务评估代码生成。领域专用基准进一步满足特定需求。在医疗健康领域,MedQA(Jin 等,2021 (https://arxiv.org/html/2605.26476#bib.bib12))、MedMCQA(Pal 等,2022 (https://arxiv.org/html/2605.26476#bib.bib13))和MultiMedQA(Singhal 等,2023a (https://arxiv.org/html/2605.26476#bib.bib14))在安全关键约束下评估医学推理,Med-PaLM 2在USMLE风格问题上达到85%的准确率(Singhal 等,2023b (https://arxiv.org/html/2605.26476#bib.bib15))。法律基准如LegalBench(Guha 等,2023 (https://arxiv.org/html/2605.26476#bib.bib17))和LawBench(Fei 等,2023 (https://arxiv.org/html/2605.26476#bib.bib18))评估跨司法管辖区的监管推理,而金融基准包括FinanceBench(Islam 等,2023 (https://arxiv.org/html/2605.26476#bib.bib19))、FinBen(Xie 等,2024 (https://arxiv.org/html/2605.26476#bib.bib20))和BloombergGPT(Wu 等,2023 (https://arxiv.org/html/2605.26476#bib.bib21))评估金融分析和决策。在半导体设计领域,ChipNeMo(Liu 等,2023a (https://arxiv.org/html/2605.26476#bib.bib22))使LLM适应芯片设计,但侧重于模型训练而非RAG评估。尽管这些领域基准提高了专门化程度,但它们主要依赖公开数据集和专家策展,对于RAG系统如何有效检索、整合和推理专属多文档语料库提供了有限的可见性。 RAG已成为在知识密集型应用中部署LLM的主流范式,尤其是在企业和工业场景(Lewis 等,2020 (https://arxiv.org/html/2605.26476#bib.bib23))——模型需要在训练时未见过的专属文档上进行推理和回答问题。尽管领域专用基准取得了进展,但许多仍然不适合企业RAG用例:它们通常基于公开知识源(例如,医疗执照考试、法律判例、已发布财务报告)进行评估,而非企业实际部署的专属文档(Chen 等,2024b (https://arxiv.org/html/2605.26476#bib.bib25))。此外,对人工专家策展的严重依赖从根本上限制了可扩展性(Zheng 等,2024 (https://arxiv.org/html/2605.26476#bib.bib33))。现有评估指标通常基于准确率,对于失败是源于检索不完整、推理错误还是多文档合成不充分,提供的诊断信息很少。它们也缺乏系统性部署优化的机制:无法评估RAG在专属语料库上的有效性、量化知识增强价值,或指导配置决策(如上下文窗口分配)。因此,这些基准强调知识回忆或任务特定推理,而对现实环境中工作流级集成或细微判断提供的评估有限(Budler 等,2025 (https://arxiv.org/html/2605.26476#bib.bib16);Gao 等,2023 (https://arxiv.org/html/2605.26476#bib.bib24))。 虽然近期工作已开始解决RAG特定评估问题,但仍存在重要空白:RGB(Chen 等,2024a (https://arxiv.org/html/2605.26476#bib.bib28))和RECALL(Liu 等,2023c (https://arxiv.org/html/2605.26476#bib.bib29))侧重于通用领域问答而非专门知识;ARES(Saad-Falcon 等,2024 (https://arxiv.org/html/2605.26476#bib.bib27))需要大量人工校准;RAGAS(Es 等,2024 (https://arxiv.org/html/2605.26476#bib.bib26))缺乏领域特定定制。因此,企业仍然缺乏针对部署关键决策(如模型选择和上下文窗口分配)的量化指导,不得不依赖临时定性反馈。 ### 1.1 贡献 在这项工作中,我们提出了FAB-Bench,一种针对垂直领域RAG的端到端评估方法,用于现实的企业推理。我们的主要贡献总结如下: - •**跨文档合成评估垂直领域RAG的方法论,采用自适应基准生成。** 我们将垂直领域RAG评估形式化为对长且异构的私有语料库的基于证据的合成,并设计了需要显式多文档集成的基准,包括大海捞针基础、文档内多主题推理和跨文档多跳组合。为了增强合成查询的鲁棒性和覆盖率,我们采用带有温度修改的自适应生成机制,根据质量和一致性信号调整采样温度,以获得多样且稳定的基准实例。 - •**一种诊断性测量协议,将失败归因于检索和生成阶段。** 我们引入了一个六维评估框架——完整性、事实性、上下文利用、技术深度、相关性和支持质量——将缺失证据、无关检索、浅层合成和无法支持的生成区分开,从而能够细粒度定位性能瓶颈。 - •**垂直RAG上下文窗口缩放机制的经验特征描述。** 通过测量四个LLM在4K到32K token范围内的性能,我们识别出三种不同的缩放行为,并通过指标级分解表征注意力稀释现象,为配置决策提供可操作的指导。 ## 2 相关工作 ### 2.1 LLM评估基准 通用基准已从特定任务评估(如GLUE(Wang 等,2018 (https://arxiv.org/html/2605.26476#bib.bib4))和SuperGLUE(Wang 等,2019 (https://arxiv.org/html/2605.26476#bib.bib5)))演变为广泛知识评估。MMLU(Hendrycks 等,2021a (https://arxiv.org/html/2605.26476#bib.bib3))涵盖57个学科共15,908道题目,尽管快速饱和(GPT-3: 43.9%(Brown 等,2020 (https://arxiv.org/html/2605.26476#bib.bib2))到GPT-4: 86%+(OpenAI,2023 (https://arxiv.org/html/2605.26476#bib.bib42)))降低了其区分能力。C-Eval(Huang 等,2023 (https://arxiv.org/html/2605.26476#bib.bib6))将覆盖范围扩展到中文。能力专用基准针对科学推理(ARC(Clark 等,2018 (https://arxiv.org/html/2605.26476#bib.bib7)))、事实可靠性(TruthfulQA(Lin 等,2022 (https://arxiv.org/html/2605.26476#bib.bib8)))、数学推理(GSM8K(Cobbe 等,2021 (https://arxiv.org/html/2605.26476#bib.bib9))、MATH(Hendrycks 等,2021b (https://arxiv.org/html/2605.26476#bib.bib10)))和代码生成(HumanEval(Chen 等,2021 (https://arxiv.org/html/2605.26476#bib.bib11)))。这些基准共享一个根本局限:依赖于静态公开知识,缺乏检索上下文,使其不适合RAG评估。 ### 2.2 领域专用评估 领域基准满足专门需求,但也继承了类似局限。在医疗健康领域,MedQA(Jin 等,2021 (https://arxiv.org/html/2605.26476#bib.bib12))、MedMCQA(Pal 等,2022 (https://arxiv.org/html/2605.26476#bib.bib13))和MultiMedQA(Singhal 等,2023a (https://arxiv.org/html/2605.26476#bib.bib14))评估医学推理,Med-PaLM 2在USMLE风格问题上达到85%(Singhal 等,2023b (https://arxiv.org/html/2605.26476#bib.bib15))。法律基准(LegalBench(Guha 等,2023 (https://arxiv.org/html/2605.26476#bib.bib17))、LawBench(Fei 等,2023 (https://arxiv.org/html/2605.26476#bib.bib18)))评估监管推理,而金融基准(FinanceBench(Islam 等,2023 (https://arxiv.org/html/2605.26476#bib.bib19))、FinBen(Xie 等,2024 (https://arxiv.org/html/2605.26476#bib.bib20))、BloombergGPT(Wu 等,2023 (https://arxiv.org/html/2605.26476#bib.bib21)))评估金融分析。在半导体设计领域,ChipNeMo(Liu 等,2023a (https://arxiv.org/html/2605.26476#bib.bib22))使LLM适应芯片设计,但侧重于模型训练而非RAG评估。这些基准主要评估公开数据集上的参数化知识,对RAG系统如何检索、整合和推理专属多文档语料库提供的可见性有限(Budler 等,2025 (https://arxiv.org/html/2605.26476#bib.bib16))。 ### 2.3 RAG评估框架 RAG专用评估已受到越来越多的关注。RAGAS(Es 等,2024 (https://arxiv.org/html/2605.26476#bib.bib26))提供多维度指标(忠实性、相关性、上下文精确度/召回率),并支持从用户提供的语料库生成测试集,但未涉及上下文窗口缩放或领域特定指标定制。ARES(Saad-Falcon 等,2024 (https://arxiv.org/html/2605.26476#bib.bib27))通过预测驱动推理和多维评分自动化RAG评估,但需要约~150个人工标注样本进行校准。RGB(Chen 等,2024a (https://arxiv.org/html/2605.26476#bib.bib28))评估了四种RAG鲁棒性能力,包括跨文档信息整合,但使用固定的通用领域数据集。RECALL(Liu 等,2023c (https://arxiv.org/html/2605.26476#bib.bib29))评估对反事实知识的鲁棒性。CRAG(Yang 等,2024 (https://arxiv.org/html/2605.26476#bib.bib30))提供了一个综合基准,包含需要跨文档合成的多跳和聚合问题,但操作于固定数据集,没有垂直领域定制。MultiHop-RAG(Tang 和 Yi,2024 (https://arxiv.org/html/2605.26476#bib.bib31))专门针对多跳推理,证据分布2-4篇文档,但限于固定的英文新闻语料库。SCARF(Rengo 等,2025 (https://arxiv.org/html/2605.26476#bib.bib32))提出了系统级评估框架,但不包含基准生成。 FAB-Bench 通过同时解决上述框架均未覆盖的两个空白来补充这些努力:(1) **系统性上下文窗口缩放分析**,表征RAG性能如何从4K token演进到32K token,以及(2) **领域特定评估**,利用结构化知识库(431个半导体术语,分属7个加权类别)实现精度感知的基准生成和领域基础的评分。 ### 2.4 LLM作为评判者方法论 使用LLM作为评估评判者已变得普遍,继MT-Bench(Zheng 等,2024 (https://arxiv.org/html/2605.26476#bib.bib33))之后,它展示了LLM评判与人类偏好之间的强相关性。G-Eval(Liu 等,2023b (https://arxiv.org/html/2605.26476#bib.bib34))通过链式思维提示和概率加权评分将其形式化。然而,LLM评判者表现出已知的偏见,包括位置偏见、冗长偏见和自我增强偏见(Zheng 等,2024 (https://arxiv.org/html/2605.26476#bib.bib33);Wang 等,2023 (https://arxiv.org/html/2605.26476#bib.bib35))。最近关于校准LLM评判者的工作(Liu 等,2024b (https://arxiv.org/html/2605.26476#bib.bib36))表明,具有明确评分标准的结构化评分表能够缓解这些偏见。我们的方法通过以下方式解决可靠性问题:(1) 结构化的评分表,每个指标有单独的客观/主观变体;(2) 通过G-Eval的链式思维推理;(3) 指标独立性的实证验证(第5.5节 (https://arxiv.org/html/2605.26476#S5.SS5))。 ## 3 FAB-Bench 框架 参考图注 图 1: FAB-Bench 系统概览。该框架包含两个组件:一个自适应基准生成系统,用于生成领域专用
相似文章
仅靠基准测试不够:RAMP——生产系统中代理模型的运行时评估
RAMP是一个基于生产环境的LLM代理评估框架,可揭示静态基准测试无法察觉的显著能力退化,显示任务完成率在串行工作流中从100%骤降至20%。该框架在真实的编译器构建工作负载上评估了15个主流模型,涉及复杂的工具链交互和分阶段恢复机制。
"大多数 RAG 基准测试对真实世界的语料库存在误导" 来自3个生产网站的测试数据。
本文认为,大多数 RAG 基准测试具有误导性,因为它们假设语料库质量均匀,而真实世界的语料库在内容密度上差异很大。利用来自三个生产网站的数据,本文展示了一种分层方法和“产出分数”可以更好地预测检索效果。
为稳健的 RAG 评估生成无知识泄露的基准测试
本文介绍了 SeedRG,这是一个半合成的基准测试生成管道,旨在通过创建保留推理结构但不在模型参数记忆中的新实例,消除检索增强生成 (RAG) 评估中的知识泄露。
FAM-Bench: 面向条件感知的食品即药物推理的多模态基准
介绍了FAM-Bench,这是一个多模态基准,包含2500个经专家验证的实例,涵盖13种与饮食相关的健康状况,旨在评估AI模型评估菜肴对特定健康状况的适宜性的能力,超越了基本的食物识别,转向条件感知推理。
AJ-Bench:面向环境感知评估的 Agent-as-a-Judge 评测基准
AJ-Bench 提出一套评测基准,用于衡量 Agent-as-a-Judge 系统通过与环境交互来验证智能体行为的能力,覆盖搜索、数据系统与 GUI 领域的 155 项任务。