FAB-Bench：面向半导体制造的自适应RAG基准评估框架

arXiv cs.CL 2026/05/27 04:00 论文

rag benchmarking semiconductor manufacturing evaluation llm domain-specific

摘要

FAB-Bench是一个用于评估半导体制造中检索增强生成（RAG）系统的基准框架，包含六项诊断指标和跨上下文窗口的分析。它提供了200个精选的问答对，并揭示了上下文缩放行为和注意力稀释问题。

arXiv:2605.26476v1 公告类型：新摘要：检索增强生成（RAG）已成为知识密集型应用的关键技术，但在垂直领域评估其性能仍面临困难，原因包括领域复杂性、多样化的上下文规模以及严重依赖专家评估——而专家评估成本高、不一致且不可扩展。我们提出了FAB-Bench，一个用于半导体制造中RAG系统自适应基准测试的端到端框架。FAB-Bench定义了六项诊断指标，分别衡量事实准确性、上下文利用、完整性、检索相关性、技术深度和推理一致性。该框架将检索器诊断与生成器级推理分析相结合，覆盖4K至32K token的上下文窗口，量化了随着上下文范围扩大，检索精度和生成保真度如何共同演化。从1300多个生成候选中，我们精选出200个高质量的问答对，涵盖三种合成策略：大海捞针、文档内多主题、跨文档多跳。在四种大语言模型（LLM）和四种RAG框架上的系统评估揭示了三种不同的上下文缩放行为：对数增长、早期饱和和冷启动动态，并识别出注意力稀释是极端上下文长度下性能下降的主要机制。在另外三个生产级RAG系统上的跨框架验证确认了评估的可移植性。

查看原文

查看缓存全文

缓存时间: 2026/05/27 09:06

# FAB-Bench：面向半导体制造的自适应RAG基准测试框架  
来源：https://arxiv.org/html/2605.26476  
Jingbin Qian  Congwen Yi  Min Xia  Wen Wu  Jun Zhu  Jian Guan\*  
FutureFab\.AI  \*andrewg@futurefab\.ai  

###### 摘要  

检索增强生成（RAG）已成为知识密集型应用的关键技术，但在垂直领域评估其性能仍面临困难，原因包括领域复杂性、多样化的上下文规模，以及对昂贵、不一致且不可扩展的专家评估的严重依赖。我们提出了FAB-Bench，一个用于半导体制造领域RAG系统自适应基准测试的端到端框架。FAB-Bench定义了六个诊断指标，分别衡量事实准确性、上下文利用、完整性、检索相关性、技术深度和推理一致性。该框架将检索器诊断与生成器级推理分析相结合，覆盖4K–32K token的上下文窗口，量化了随着上下文范围扩展，检索精度与生成保真度如何共同演化。从超过1300个候选样本中，我们精选出200个高质量查询-答案对，涵盖三种合成策略：大海捞针、文档内多主题和跨文档多跳。对四个LLM和四个RAG框架的系统性评估揭示了三种不同的上下文缩放行为——对数增长、早期饱和和冷启动动态——并指出在极端上下文长度下，注意力稀释是性能下降的主要机制。跨框架验证在另外三个生产级RAG系统上证实了评估的可移植性。  

††基准数据集可在以下地址获取：https://github.com/FuturefabAI/FAB-Bench  

*关键词* RAG评估·垂直领域基准·LLM作为评判者·上下文窗口缩放·半导体制造  

## 1 引言  

大规模语言模型（LLM）在各种任务中展现出了卓越的能力（Achiam 等，2023 (https://arxiv.org/html/2605.26476#bib.bib1)；Brown 等，2020 (https://arxiv.org/html/2605.26476#bib.bib2)），推动了多样化评估基准的发展。早期基准如 GLUE（Wang 等，2018 (https://arxiv.org/html/2605.26476#bib.bib4)）和 SuperGLUE（Wang 等，2019 (https://arxiv.org/html/2605.26476#bib.bib5)）侧重于自然语言理解任务，包括情感分析、文本理解和问答。MMLU（Hendrycks 等，2021a (https://arxiv.org/html/2605.26476#bib.bib3)）将评估扩展到57个学科的广泛知识覆盖，包含15,908道从初级到专业水平的多项选择题，重点在于零样本和少样本评估预训练知识。然而，基准快速饱和显著降低了其区分能力：GPT-3仅达到43.9%的准确率（Brown 等，2020 (https://arxiv.org/html/2605.26476#bib.bib2)），而GPT-4超过了86%（OpenAI，2023 (https://arxiv.org/html/2605.26476#bib.bib42)）。为改善语言覆盖，C-Eval（Huang 等，2023 (https://arxiv.org/html/2605.26476#bib.bib6)）将该范式扩展到中文，包含52个学科共13,948道题目。尽管具有价值，这些基准存在根本性局限：依赖于静态公开知识，且缺乏检索上下文，使其不适合评估垂直领域的RAG系统。  

除通用语言基准外，还提出了更多任务或能力专用的评估。ARC（Clark 等，2018 (https://arxiv.org/html/2605.26476#bib.bib7)）使用研究生水平的科学问题评估科学推理；TruthfulQA（Lin 等，2022 (https://arxiv.org/html/2605.26476#bib.bib8)）衡量事实可靠性倾向；GSM8K（Cobbe 等，2021 (https://arxiv.org/html/2605.26476#bib.bib9)）和MATH（Hendrycks 等，2021b (https://arxiv.org/html/2605.26476#bib.bib10)）评估从研究生到竞赛水平的数学推理；HumanEval（Chen 等，2021 (https://arxiv.org/html/2605.26476#bib.bib11)）通过164道编程任务评估代码生成。领域专用基准进一步满足特定需求。在医疗健康领域，MedQA（Jin 等，2021 (https://arxiv.org/html/2605.26476#bib.bib12)）、MedMCQA（Pal 等，2022 (https://arxiv.org/html/2605.26476#bib.bib13)）和MultiMedQA（Singhal 等，2023a (https://arxiv.org/html/2605.26476#bib.bib14)）在安全关键约束下评估医学推理，Med-PaLM 2在USMLE风格问题上达到85%的准确率（Singhal 等，2023b (https://arxiv.org/html/2605.26476#bib.bib15)）。法律基准如LegalBench（Guha 等，2023 (https://arxiv.org/html/2605.26476#bib.bib17)）和LawBench（Fei 等，2023 (https://arxiv.org/html/2605.26476#bib.bib18)）评估跨司法管辖区的监管推理，而金融基准包括FinanceBench（Islam 等，2023 (https://arxiv.org/html/2605.26476#bib.bib19)）、FinBen（Xie 等，2024 (https://arxiv.org/html/2605.26476#bib.bib20)）和BloombergGPT（Wu 等，2023 (https://arxiv.org/html/2605.26476#bib.bib21)）评估金融分析和决策。在半导体设计领域，ChipNeMo（Liu 等，2023a (https://arxiv.org/html/2605.26476#bib.bib22)）使LLM适应芯片设计，但侧重于模型训练而非RAG评估。尽管这些领域基准提高了专门化程度，但它们主要依赖公开数据集和专家策展，对于RAG系统如何有效检索、整合和推理专属多文档语料库提供了有限的可见性。  

RAG已成为在知识密集型应用中部署LLM的主流范式，尤其是在企业和工业场景（Lewis 等，2020 (https://arxiv.org/html/2605.26476#bib.bib23)）——模型需要在训练时未见过的专属文档上进行推理和回答问题。尽管领域专用基准取得了进展，但许多仍然不适合企业RAG用例：它们通常基于公开知识源（例如，医疗执照考试、法律判例、已发布财务报告）进行评估，而非企业实际部署的专属文档（Chen 等，2024b (https://arxiv.org/html/2605.26476#bib.bib25)）。此外，对人工专家策展的严重依赖从根本上限制了可扩展性（Zheng 等，2024 (https://arxiv.org/html/2605.26476#bib.bib33)）。现有评估指标通常基于准确率，对于失败是源于检索不完整、推理错误还是多文档合成不充分，提供的诊断信息很少。它们也缺乏系统性部署优化的机制：无法评估RAG在专属语料库上的有效性、量化知识增强价值，或指导配置决策（如上下文窗口分配）。因此，这些基准强调知识回忆或任务特定推理，而对现实环境中工作流级集成或细微判断提供的评估有限（Budler 等，2025 (https://arxiv.org/html/2605.26476#bib.bib16)；Gao 等，2023 (https://arxiv.org/html/2605.26476#bib.bib24)）。  

虽然近期工作已开始解决RAG特定评估问题，但仍存在重要空白：RGB（Chen 等，2024a (https://arxiv.org/html/2605.26476#bib.bib28)）和RECALL（Liu 等，2023c (https://arxiv.org/html/2605.26476#bib.bib29)）侧重于通用领域问答而非专门知识；ARES（Saad-Falcon 等，2024 (https://arxiv.org/html/2605.26476#bib.bib27)）需要大量人工校准；RAGAS（Es 等，2024 (https://arxiv.org/html/2605.26476#bib.bib26)）缺乏领域特定定制。因此，企业仍然缺乏针对部署关键决策（如模型选择和上下文窗口分配）的量化指导，不得不依赖临时定性反馈。  

### 1.1 贡献  

在这项工作中，我们提出了FAB-Bench，一种针对垂直领域RAG的端到端评估方法，用于现实的企业推理。我们的主要贡献总结如下：  

- •**跨文档合成评估垂直领域RAG的方法论，采用自适应基准生成。**  
  我们将垂直领域RAG评估形式化为对长且异构的私有语料库的基于证据的合成，并设计了需要显式多文档集成的基准，包括大海捞针基础、文档内多主题推理和跨文档多跳组合。为了增强合成查询的鲁棒性和覆盖率，我们采用带有温度修改的自适应生成机制，根据质量和一致性信号调整采样温度，以获得多样且稳定的基准实例。  

- •**一种诊断性测量协议，将失败归因于检索和生成阶段。**  
  我们引入了一个六维评估框架——完整性、事实性、上下文利用、技术深度、相关性和支持质量——将缺失证据、无关检索、浅层合成和无法支持的生成区分开，从而能够细粒度定位性能瓶颈。  

- •**垂直RAG上下文窗口缩放机制的经验特征描述。**  
  通过测量四个LLM在4K到32K token范围内的性能，我们识别出三种不同的缩放行为，并通过指标级分解表征注意力稀释现象，为配置决策提供可操作的指导。  

## 2 相关工作  

### 2.1 LLM评估基准  

通用基准已从特定任务评估（如GLUE（Wang 等，2018 (https://arxiv.org/html/2605.26476#bib.bib4)）和SuperGLUE（Wang 等，2019 (https://arxiv.org/html/2605.26476#bib.bib5)））演变为广泛知识评估。MMLU（Hendrycks 等，2021a (https://arxiv.org/html/2605.26476#bib.bib3)）涵盖57个学科共15,908道题目，尽管快速饱和（GPT-3: 43.9%（Brown 等，2020 (https://arxiv.org/html/2605.26476#bib.bib2)）到GPT-4: 86%+（OpenAI，2023 (https://arxiv.org/html/2605.26476#bib.bib42)））降低了其区分能力。C-Eval（Huang 等，2023 (https://arxiv.org/html/2605.26476#bib.bib6)）将覆盖范围扩展到中文。能力专用基准针对科学推理（ARC（Clark 等，2018 (https://arxiv.org/html/2605.26476#bib.bib7)））、事实可靠性（TruthfulQA（Lin 等，2022 (https://arxiv.org/html/2605.26476#bib.bib8)））、数学推理（GSM8K（Cobbe 等，2021 (https://arxiv.org/html/2605.26476#bib.bib9)）、MATH（Hendrycks 等，2021b (https://arxiv.org/html/2605.26476#bib.bib10)））和代码生成（HumanEval（Chen 等，2021 (https://arxiv.org/html/2605.26476#bib.bib11)））。这些基准共享一个根本局限：依赖于静态公开知识，缺乏检索上下文，使其不适合RAG评估。  

### 2.2 领域专用评估  

领域基准满足专门需求，但也继承了类似局限。在医疗健康领域，MedQA（Jin 等，2021 (https://arxiv.org/html/2605.26476#bib.bib12)）、MedMCQA（Pal 等，2022 (https://arxiv.org/html/2605.26476#bib.bib13)）和MultiMedQA（Singhal 等，2023a (https://arxiv.org/html/2605.26476#bib.bib14)）评估医学推理，Med-PaLM 2在USMLE风格问题上达到85%（Singhal 等，2023b (https://arxiv.org/html/2605.26476#bib.bib15)）。法律基准（LegalBench（Guha 等，2023 (https://arxiv.org/html/2605.26476#bib.bib17)）、LawBench（Fei 等，2023 (https://arxiv.org/html/2605.26476#bib.bib18)））评估监管推理，而金融基准（FinanceBench（Islam 等，2023 (https://arxiv.org/html/2605.26476#bib.bib19)）、FinBen（Xie 等，2024 (https://arxiv.org/html/2605.26476#bib.bib20)）、BloombergGPT（Wu 等，2023 (https://arxiv.org/html/2605.26476#bib.bib21)））评估金融分析。在半导体设计领域，ChipNeMo（Liu 等，2023a (https://arxiv.org/html/2605.26476#bib.bib22)）使LLM适应芯片设计，但侧重于模型训练而非RAG评估。这些基准主要评估公开数据集上的参数化知识，对RAG系统如何检索、整合和推理专属多文档语料库提供的可见性有限（Budler 等，2025 (https://arxiv.org/html/2605.26476#bib.bib16)）。  

### 2.3 RAG评估框架  

RAG专用评估已受到越来越多的关注。RAGAS（Es 等，2024 (https://arxiv.org/html/2605.26476#bib.bib26)）提供多维度指标（忠实性、相关性、上下文精确度/召回率），并支持从用户提供的语料库生成测试集，但未涉及上下文窗口缩放或领域特定指标定制。ARES（Saad-Falcon 等，2024 (https://arxiv.org/html/2605.26476#bib.bib27)）通过预测驱动推理和多维评分自动化RAG评估，但需要约~150个人工标注样本进行校准。RGB（Chen 等，2024a (https://arxiv.org/html/2605.26476#bib.bib28)）评估了四种RAG鲁棒性能力，包括跨文档信息整合，但使用固定的通用领域数据集。RECALL（Liu 等，2023c (https://arxiv.org/html/2605.26476#bib.bib29)）评估对反事实知识的鲁棒性。CRAG（Yang 等，2024 (https://arxiv.org/html/2605.26476#bib.bib30)）提供了一个综合基准，包含需要跨文档合成的多跳和聚合问题，但操作于固定数据集，没有垂直领域定制。MultiHop-RAG（Tang 和 Yi，2024 (https://arxiv.org/html/2605.26476#bib.bib31)）专门针对多跳推理，证据分布2-4篇文档，但限于固定的英文新闻语料库。SCARF（Rengo 等，2025 (https://arxiv.org/html/2605.26476#bib.bib32)）提出了系统级评估框架，但不包含基准生成。  

FAB-Bench 通过同时解决上述框架均未覆盖的两个空白来补充这些努力：(1) **系统性上下文窗口缩放分析**，表征RAG性能如何从4K token演进到32K token，以及(2) **领域特定评估**，利用结构化知识库（431个半导体术语，分属7个加权类别）实现精度感知的基准生成和领域基础的评分。  

### 2.4 LLM作为评判者方法论  

使用LLM作为评估评判者已变得普遍，继MT-Bench（Zheng 等，2024 (https://arxiv.org/html/2605.26476#bib.bib33)）之后，它展示了LLM评判与人类偏好之间的强相关性。G-Eval（Liu 等，2023b (https://arxiv.org/html/2605.26476#bib.bib34)）通过链式思维提示和概率加权评分将其形式化。然而，LLM评判者表现出已知的偏见，包括位置偏见、冗长偏见和自我增强偏见（Zheng 等，2024 (https://arxiv.org/html/2605.26476#bib.bib33)；Wang 等，2023 (https://arxiv.org/html/2605.26476#bib.bib35)）。最近关于校准LLM评判者的工作（Liu 等，2024b (https://arxiv.org/html/2605.26476#bib.bib36)）表明，具有明确评分标准的结构化评分表能够缓解这些偏见。我们的方法通过以下方式解决可靠性问题：(1) 结构化的评分表，每个指标有单独的客观/主观变体；(2) 通过G-Eval的链式思维推理；(3) 指标独立性的实证验证（第5.5节 (https://arxiv.org/html/2605.26476#S5.SS5)）。  

## 3 FAB-Bench 框架  

参考图注 图 1: FAB-Bench 系统概览。该框架包含两个组件：一个自适应基准生成系统，用于生成领域专用

FAB-Bench：面向半导体制造的自适应RAG基准评估框架

相似文章

仅靠基准测试不够：RAMP——生产系统中代理模型的运行时评估

"大多数 RAG 基准测试对真实世界的语料库存在误导" 来自3个生产网站的测试数据。

为稳健的 RAG 评估生成无知识泄露的基准测试

FAM-Bench: 面向条件感知的食品即药物推理的多模态基准

AJ-Bench：面向环境感知评估的 Agent-as-a-Judge 评测基准

提交意见反馈