消费级硬件上的GraphRAG:用于医疗EHR模式检索的本地LLM基准测试

arXiv cs.CL 论文

摘要

本文在消费级硬件上使用本地LLM对GraphRAG进行EHR模式检索基准测试,评估了Llama 3.1、Mistral、Qwen 2.5和Phi-4-mini等模型。

arXiv:2605.20815v1 公告类型:new 摘要:基于图的检索增强生成(GraphRAG)扩展了检索增强生成,以支持对复杂语料库的结构化推理,但在资源受限、隐私敏感的部署环境下其可靠性仍不明确。在医疗领域,电子健康记录(EHR)数据复杂且受到严格监管,依赖云上大型语言模型(LLM)会带来成本、延迟和合规性方面的挑战。本工作中,我们使用本地部署的开源LLM对GraphRAG在EHR模式检索中的应用进行了系统评估。我们在真实的EHR模式文档上实现了微软GraphRAG流水线,并对四种模型进行了基准测试,包括Llama 3.1(8B)、Mistral(7B)、Qwen 2.5(7B)和Phi-4-mini(3.8B),每个模型均通过Ollama部署在单一消费级GPU(8 GB显存)上。我们在全局和本地检索模式下评估了索引效率、知识图谱构建、查询延迟、答案质量和幻觉情况。我们的结果揭示了显著差异:Llama 3.1生成了最丰富的知识图谱(1,172个实体),Qwen 2.5取得了最佳答案质量(3.3/5),Phi-4-mini因结构化输出错误而无法完成流水线,Mistral表现出退化的重复行为。我们进一步表明,GraphRAG存在一个实际容量阈值,即参数低于约7B的模型无法可靠地生成有效的结构化输出,也无法完成流水线。此外,各模型的索引和答案质量是解耦的,本地检索在延迟和事实基础方面始终优于全局摘要,且幻觉更少。这些发现表明,GraphRAG在消费级硬件上是可行的,同时强调了在监管环境中稳健部署时模型选择和检索设计的重要性。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:35

# 消费级硬件上的GraphRAG:基准测试本地LLM在医疗EHR模式检索中的表现

来源:https://arxiv.org/html/2605.20815

Peter Fernandes  
计算机工程系  
加州州立理工大学圣路易斯奥比斯波分校  
美国加利福尼亚州  
pfernand@calpoly\.edu

Ria Kanjilal  
计算机工程系  
加州州立理工大学圣路易斯奥比斯波分校  
美国加利福尼亚州  
rkanjila@calpoly\.edu

###### 摘要

基于图的检索增强生成(GraphRAG)扩展了检索增强生成的能力,以支持对复杂语料库的结构化推理,但在资源受限且对隐私敏感的场景下,其可靠性仍不明确。在医疗领域,电子健康记录(EHR)数据复杂且受严格监管,依赖基于云的大语言模型(LLM)会带来成本、延迟和合规性方面的挑战。在这项工作中,我们针对使用本地部署的开源LLM进行EHR模式检索的GraphRAG系统,进行了系统评估。我们在真实的EHR模式文档上实现了微软GraphRAG流水线,并对四个模型进行了基准测试,包括Llama 3.1(8B)、Mistral(7B)、Qwen 2.5(7B)和Phi-4-mini(3.8B),每个模型均通过Ollama部署在单块消费级GPU(8 GB显存)上。我们评估了索引效率、知识图谱构建、查询延迟、答案质量以及在全局和局部检索模式下的幻觉现象。我们的结果揭示了显著差异:Llama 3.1生成了最丰富的知识图谱(1,172个实体),Qwen 2.5取得了最佳的答案质量(3.3/5),Phi-4-mini由于结构化输出错误而未能完成流水线,Mistral则表现出退化的重复行为。我们进一步表明,GraphRAG存在一个实际的容量阈值,大约低于7B参数的模型无法可靠地生成有效的结构化输出,因此无法完成流水线。此外,索引和答案质量在不同模型间是解耦的,并且局部检索在延迟和事实基础方面均持续优于全局摘要,且幻觉更少。这些发现表明,GraphRAG在消费级硬件上是可行的,同时也突显了在监管严格的环境中进行稳健部署时,模型选择与检索设计的重要性。

## 1 引言

检索增强生成(RAG)[12 (https://arxiv.org/html/2605.20815#bib.bib1)] 将语言模型输出锚定在检索到的证据上,从而无需全面微调即可对大规模特定领域语料库进行问答。标准RAG将文档编码为密集向量嵌入,并在查询时检索最相似的top-kk个文本块。虽然这种方法适用于简单的事实查找,但面对需要多跳推理或对实体关系有全局性理解的查询时,这种扁平化方法效果不佳[4 (https://arxiv.org/html/2605.20815#bib.bib2)]。Edge等人[4 (https://arxiv.org/html/2605.20815#bib.bib2)] 提出的GraphRAG通过在离线索引阶段构建知识图谱来解决这些局限性。在此过程中,实体和关系首先从文本块中提取出来,并组装成图表示,然后使用Leiden算法[19 (https://arxiv.org/html/2605.20815#bib.bib6)] 将其组织成社区,并分层总结,以在多个抽象层次上捕捉结构。在查询时,*局部搜索*检索实体邻域,而*全局搜索*则利用社区级摘要进行语料库范围的综合。

在许多现实领域的应用中,包括企业数据管理和大规模信息系统,结构化模式文档是一种关键但复杂的知识资源,通常包含数千个相互关联且具有复杂依赖关系的表[7 (https://arxiv.org/html/2605.20815#bib.bib16),18 (https://arxiv.org/html/2605.20815#bib.bib17)]。虽然传统检索方法可以访问相关片段,但它们在捕捉跨实体关系或实现全局综合方面能力有限[12 (https://arxiv.org/html/2605.20815#bib.bib1),4 (https://arxiv.org/html/2605.20815#bib.bib2),5 (https://arxiv.org/html/2605.20815#bib.bib3)]。这些问题在医疗信息学中尤为突出。电子健康记录(EHR)系统依赖大型且高度结构化的模式来组织临床和运营数据,而准确解释表间关系对于分析、报告和决策支持工作流至关重要[9 (https://arxiv.org/html/2605.20815#bib.bib18)]。作为一个代表性示例,Epic的Clarity数据模型提供了一个在实践中广泛使用的大规模关系模式。先前的工作表明,大语言模型(LLM)可以编码大量的临床知识[17 (https://arxiv.org/html/2605.20815#bib.bib15)],这推动了它们与医疗系统的集成。然而,在这种场景下部署基于LLM的检索引入了实际约束。GraphRAG的索引阶段需要大量LLM调用,这使得大规模云端部署成本高昂[2 (https://arxiv.org/html/2605.20815#bib.bib19),21 (https://arxiv.org/html/2605.20815#bib.bib8)]。此外,将模式元数据发送给外部提供商会引发《健康保险可移植性和责任法案》(HIPAA)等法规下的合规问题,而依赖远程应用程序编程接口(API)会引入延迟,从而影响交互式应用[16 (https://arxiv.org/html/2605.20815#bib.bib20),15 (https://arxiv.org/html/2605.20815#bib.bib21),21 (https://arxiv.org/html/2605.20815#bib.bib8)]。近年来,高效开源模型取得了进展,可通过Ollama在本地部署,为在消费级硬件上进行本地推理提供了一种有前景的替代方案[6 (https://arxiv.org/html/2605.20815#bib.bib9),20 (https://arxiv.org/html/2605.20815#bib.bib12)]。然而,参数规模在7B左右的模型能否可靠地支持GraphRAG流水线所需的结构化提取、图构建和多阶段推理,目前仍不清楚[4 (https://arxiv.org/html/2605.20815#bib.bib2)]。

在本研究中,我们针对使用本地部署LLM的EHR模式检索,对GraphRAG进行了实证评估。我们在真实的Epic Clarity模式文档上实现了微软GraphRAG流水线,并在单块消费级GPU上对四个开源模型(Llama 3.1 (8B)、Mistral (7B)、Qwen 2.5 (7B) 和 Phi-4-mini (3.8B))进行了基准测试 [11 (https://arxiv.org/html/2605.20815#bib.bib10),6 (https://arxiv.org/html/2605.20815#bib.bib9),1 (https://arxiv.org/html/2605.20815#bib.bib11),20 (https://arxiv.org/html/2605.20815#bib.bib12)]。我们评估了在全局和局部检索模式下的索引效率、知识图谱构建、查询延迟、答案质量和幻觉行为。我们的贡献可总结如下:

- • 我们针对应用于EHR模式文档的GraphRAG进行了实证评估,以Epic Clarity作为代表性真实系统。与先前关注通用领域语料库或任务特定基准的工作不同,我们在本地部署约束下,将GraphRAG作为一个完整流水线在结构化医疗场景中进行分析,重点关注流水线层面的可靠性,而非对替代RAG变体进行基准测试。
- • 我们在单块消费级GPU上,对四个本地部署的开源LLM在GraphRAG流水线上进行了受控比较,评估了局部和全局检索模式下的索引效率、图构建、查询延迟和答案质量。
- • 我们识别了资源受限环境中的关键故障模式,包括较小模型的结构化输出失败和退化重复行为,突显了本地GraphRAG部署的鲁棒性局限。
- • 我们证明了索引质量和查询质量是*解耦*的,表明更强的实体提取和更大的图并不一定能产生更好的答案,这暗示了流水线内不同阶段存在模型优势差异。
- • 我们分析了成本、隐私和系统设计方面的部署权衡,表明本地GraphRAG消除了API成本和数据出站风险,但引入了依赖模型的约束,为在监管严格环境中的部署提供了实用指导。

本文其余部分组织如下:第2节 (https://arxiv.org/html/2605.20815#S2) 回顾相关工作;第3节 (https://arxiv.org/html/2605.20815#S3) 介绍方法论,随后第4节 (https://arxiv.org/html/2605.20815#S4) 描述实验设置;第5节 (https://arxiv.org/html/2605.20815#S5) 和第6节 (https://arxiv.org/html/2605.20815#S6) 展示并讨论结果;第7节 (https://arxiv.org/html/2605.20815#S7) 对全文进行总结。

## 2 相关工作

先前关于检索增强生成的工作已广泛研究了改善LLM中依据基础和检索质量的方法。Gao等人 [5 (https://arxiv.org/html/2605.20815#bib.bib3)] 将RAG系统分为朴素型、高级型和模块化变体,并指出了其在处理需要多跳推理和跨文档综合的查询时的局限性。虽然这些方法提升了检索效果,但它们主要处理非结构化文本,并未显式建模实体间关系。基于图的RAG扩展通过引入结构化表示来解决这一局限性。在文献 [4 (https://arxiv.org/html/2605.20815#bib.bib2)] 中,作者证明了将检索到的信息组织成带有社区级摘要的知识图谱,可以显著提升全局理解任务的性能。后续的基准测试工作 [3 (https://arxiv.org/html/2605.20815#bib.bib14),8 (https://arxiv.org/html/2605.20815#bib.bib4)] 进一步表明,在复杂查询场景中,图结构检索优于标准RAG。然而,这些研究主要关注通用领域语料库和基于云的LLM,并未考察GraphRAG流水线在受限计算环境或数据库模式等特定领域结构化数据下的可靠性。

另一条并行的工作线探索了LLM与知识图谱的集成。Pan等人 [14 (https://arxiv.org/html/2605.20815#bib.bib5)] 概述了结合符号表示和神经表示的多种范式,包括LLM增强的知识图谱,即利用模型从文本中构建结构化表示。该领域现有工作主要强调推理或知识集成方面的改进,而我们的工作则侧重于系统级行为,特别是涉及结构化提取和检索的多阶段流水线的鲁棒性。

近年来,高效开源LLM的进展使得在普通硬件上运行强大模型成为可能,从而在资源受限环境中实现本地推理。诸如Llama 3.1 [6 (https://arxiv.org/html/2605.20815#bib.bib9)]、Mistral 7B [11 (https://arxiv.org/html/2605.20815#bib.bib10)]、Phi-4 [1 (https://arxiv.org/html/2605.20815#bib.bib11)] 和 Qwen 2.5 [20 (https://arxiv.org/html/2605.20815#bib.bib12)] 等模型在相对较小的规模上展现了有竞争力的性能。然而,现有评估主要限于标准基准,并未考虑GraphRAG这样的结构化多阶段流水线,而后者的可靠性既依赖于生成质量,也依赖于为下游图构建生成有效结构化输出的能力。

尽管先前的工作在检索增强生成和高效LLM部署方面取得了进展,但GraphRAG在本地部署约束下的行为,特别是在医疗等领域的结构化模式推理场景中,仍缺乏探索。

## 3 方法论

### 3.1 数据集

我们的语料库由从Epic的DocGen工具导出的HTML文件组成,每个文件记录了一个Clarity数据库表,包括其名称和描述、列定义(名称、数据类型、约束)、外键关系以及连接条件。完整数据集包含超过7,000个文件。在本研究中,我们使用一个经过整理的10文件子集,涵盖账户管理和临床通知表:`ABN_FOLLOW_UP`、`ABN_MEDICATIONS`、`ABN_NOTES`、`ABN_ORDERS`、`ABN_ORDER_INFO`、`ACCESSIBLE_SERVICES`、`ACCOUNT`、`ACCOUNT_2`、`ACCOUNT_3` 和 `ACCOUNT_CONTACT`。经过HTML解析后,这些文件生成了八个文档,共141个文本单元。虽然这个子集很小,但它保留了EHR模式的关键结构特征,包括表间依赖关系和关系模式,并能够对流水线级行为进行受控分析。

### 3.2 GraphRAG流水线

我们使用微软GraphRAG v2.3.0 [4 (https://arxiv.org/html/2605.20815#bib.bib2)] 并实现了一个六阶段流水线。首先,输入HTML模式文件被分割成512个token的块,重叠256个token以保持上下文连续性。接下来,LLM从每个块中提取实体和关系,包括表、列、数据类型和外键链接。提取的信息随后用于构建由结构化三元组组成的知识图谱。然后,使用Leiden算法 [19 (https://arxiv.org/html/2605.20815#bib.bib6)] 将该图组织成层次化社区。在每个层级,模型生成自然语言摘要以捕捉社区级语义。最后,文本单元和实体描述均使用 `nomic-embed-text` [13 (https://arxiv.org/html/2605.20815#bib.bib13)](274 MB)进行嵌入,以支持查询时高效的基于向量的检索。图1 (https://arxiv.org/html/2605.20815#S3.F1) 展示了整体架构,突出了离线索引阶段与在线查询阶段的分离。

图1:GraphRAG系统架构。(a) 离线索引:HTML模式文件被分块并由语言模型处理,提取实体和关系,组装成知识图谱,使用Leiden算法组织成社区,分层总结,并嵌入到索引存储中。(b) 在线查询:用户查询通过全局搜索(聚合社区级摘要)或局部搜索(检索实体邻域)进行处理,然后由LLM生成答案。

### 3.3 评估中的模型

我们评估了四个开源LLM,它们在指令调优、推理和高效部署方面体现了不同的设计侧重点。Llama 3.1 [6 (https://arxiv.org/html/2605.20815#bib.bib9)] 和 Qwen 2.5 [20 (https://arxiv.org/html/2605.20815#bib.bib12)] 是指令调优的模型,具有强大的对齐和推理能力。Mistral [11 (https://arxiv.org/html/2605.20815#bib.bib10)] 强调架构效率,以更少的计算实现高性能,而 Phi-4-mini [1 (https://arxiv.org/html/2605.20815#bib.bib11)] 则专为资源受限环境中的轻量级部署设计。这些模型共同为评估本地部署环境下的GraphRAG提供了代表性组合。表1 (https://arxiv.org/html/2605.20815#S3.T1) 总结了这些模型,所有模型均使用Ollama v0.17.0以Q4_K_M量化部署。相同的嵌入模型 `nomic-embed-text` [13 (https://arxiv.org/html/2605.20815#bib.bib13)] 在所有流水线中一致使用。

表1:本研究评估的模型。

### 3.4 评估查询

我们评估了三个代表性查询,旨在测试不同的检索能力:

- • Q1(广泛发现):“哪些表存储患者人口统计信息?”
- • Q2(关系理解):“描述与账户相关的表之间的关系。”
- • Q3(具体细节):“哪些列用于连接

相似文章

用于模式约束临床信息抽取的检索增强型大语言模型

arXiv cs.CL

本文提出了一种模块化的检索增强生成(RAG)流水线,用于从护理人员与患者的对话转录中提取结构化临床观察结果,采用模式约束提示和第二遍审核,基于Llama和GPT骨干模型,取得了80.36%的F1分数。

ContextRAG:面向检索增强生成的无抽取层次图构建

arXiv cs.CL

ContextRAG引入了一种无抽取方法,用于构建面向检索增强生成的层次图索引。该方法利用残差量化K均值(Residual-Quantization K-Means)和形式概念分析(Formal Concept Analysis),将大语言模型(LLM)调用和Token数量减少数个数量级,同时在多跳问题上保持具有竞争力的F1分数。

GraphARC:基于图结构的抽象推理综合基准

arXiv cs.AI

GraphARC是一个针对图结构数据抽象推理的新基准,将ARC范式扩展到图领域。对最新语言模型的评估揭示了理解与执行之间的差距,且在大规模实例上性能下降,凸显了扩展挑战。