HPC-LLM:面向HPC支持的实用领域自适应与检索增强生成
摘要
本文介绍了HPC-LLM,一个面向HPC工作流的检索增强与领域自适应助手,基于HPC文档使用QLoRA微调Llama 3.1 8B模型。实验表明,该模型在资源需求显著降低的情况下,性能与更大的通用模型相当。
arXiv:2605.16347v1 Announce Type: new
摘要:现代科学研究日益依赖高性能计算(HPC)基础设施,然而许多研究人员在与集群环境、作业调度器、GPU资源和并行计算框架交互时面临显著的操作障碍。通用大语言模型(LLM)提供有用的编码辅助,但通常缺乏可靠的HPC支持所需的领域特定操作知识。本文提出了HPC-LLM,一个检索增强和领域自适应的助手,旨在支持常见的HPC工作流,包括Slurm调度、MPI执行、GPU利用、文件系统管理和集群故障排除。所提出的框架集成了自动化文档摄取、密集检索、使用QLoRA的轻量级领域自适应以及模块化编排管道内的本地推理。为了支持领域自适应,我们从公开的大学HPC文档、精选的操作示例以及从检索到的HPC内容生成的合成指令-答案对中构建了一个面向HPC的语料库。由此产生的数据集包含大约9,000到24,000个聚焦HPC的训练示例,涵盖作业调度、GPU计算、分布式训练、存储系统和集群管理主题。我们使用QLoRA微调Llama 3.1 8B,并在JetStream2基础设施上的检索增强设置下,对得到的模型与多个开源权重基线进行评估。实验结果表明,经过微调的8B模型在显著更低的GPU内存需求和推理延迟下,实现了与更大的通用模型相当的性能。特别是,该微调模型在需要大幅减少计算资源的情况下,接近Qwen 2.5 14B的性能。
查看缓存全文
缓存时间: 2026/05/19 06:41
# HPC-LLM:面向HPC支持的实用领域适配与检索增强生成 来源:https://arxiv.org/html/2605.16347 Nourin Shahin 德克萨斯农工大学圣安东尼奥分校 圣安东尼奥, TX nshahin@tamusa\.edu &Izzat Alsmadi 德克萨斯农工大学圣安东尼奥分校 圣安东尼奥, TX ialsmadi@tamusa\.edu ###### 摘要 现代科学研究日益依赖于高性能计算(HPC)基础设施,但许多研究人员在与集群环境、作业调度器、GPU资源和并行计算框架交互时仍面临显著的操作障碍。通用大语言模型(LLM)提供了有用的编码辅助,但常常缺乏可靠的HPC支持所需的领域特定操作知识。本文提出了HPC-LLM,一个检索增强且领域适配的助手,旨在支持常见的HPC工作流,包括Slurm调度、MPI执行、GPU利用、文件系统管理和集群故障排除。所提出的框架集成了自动化文档摄入、密集检索、使用QLoRA的轻量级领域适配以及模块化编排管道中的本地推理。为支持领域适配,我们根据公开可用的大学HPC文档、精选的操作示例以及从检索到的HPC内容生成的合成指令-答案对,构建了一个面向HPC的语料库。最终数据集包含大约9,000–24,000个HPC聚焦的训练样本,涵盖作业调度、GPU计算、分布式训练、存储系统和集群管理主题。我们使用QLoRA对Llama 3.1 8B进行微调,并在JetStream2基础设施上,在检索增强设置下,将所得模型与几个开源基线模型进行了评估。实验结果表明,适配后的8B模型在显著降低GPU内存需求和推理延迟的情况下,达到了与大规模通用模型相当的性能。特别是,适配模型接近了Qwen 2.5 14B的性能,同时所需计算资源大幅减少。本文进一步描述了系统架构、检索管道、部署考虑以及评估操作性HPC助手的实际局限性。我们的研究结果表明,将轻量级领域适配与检索依据相结合,为在资源受限的基础设施上部署面向HPC的语言助手提供了实用方向。 ## 1 引言 高性能计算(HPC)系统对现代科学和工程研究至关重要,支持大规模模拟、深度学习工作负载、计算生物学、气候建模和数据密集型分析。尽管它们很重要,但HPC环境对许多用户来说操作仍很复杂。研究人员通常需要理解作业调度系统、并行编程框架、GPU资源分配、文件系统层次结构、容器化工具以及集群特定策略,这些都属于其主学科专业知识之外。HPC环境中的操作障碍常常导致作业失败、资源使用效率低下、调试困难以及可用计算基础设施利用率不足。虽然存在机构文档,但这些文档通常分散在网络门户、集群手册、调度器文档和软件特定指南中。用户必须手动搜索并综合来自多个异构来源的信息。 LLM已经展示了强大的通用编码能力[1](https://arxiv.org/html/2605.16347#bib.bib1),2](https://arxiv.org/html/2605.16347#bib.bib2),但它们对HPC的实用性受到以下限制:(1) 预训练语料库中HPC文档的稀缺性,以及(2) HPC建议的上下文依赖性,这需要关于分区名称、GPU类型和节点特征的集群特定知识。RAG[4](https://arxiv.org/html/2605.16347#bib.bib4)通过将响应植根于检索到的文档来解决这个问题;结合领域微调,这种双重方法构成了HPC-LLM的核心动机。 本工作的主要贡献是: 1. 1.一个检索增强的HPC辅助框架,集成了自动化文档摄入、检索、推理和评估。 2. 2.一个面向HPC的指令数据集,基于公开可用的机构HPC文档和精选的操作知识构建。 3. 3.一个在受限GPU内存设置下,针对HPC聚焦指令遵循的轻量级QLoRA领域适配的实证研究。 4. 4.一个可部署的本地推理架构,支持检索依据的HPC辅助,无需依赖外部云API。 5. 5.对HPC环境中领域特定操作助手的实际局限性和评估挑战的分析。 所提出的系统集成了: 1. 1.HPC文档的自动爬取。 2. 2.基于向量的机构HPC知识检索。 3. 3.开源指令模型的QLoRA微调。 4. 4.模块化编排组件。 5. 5.针对可部署性优化的本地GPU推理。 ## 2 相关工作 ### 2.1 面向技术辅助的大语言模型 大语言模型(LLM)在代码生成、技术问答和软件工程辅助方面展现了强大的能力。基础研究如《Language Models are Few-Shot Learners》[23](https://arxiv.org/html/2605.16347#bib.bib23)确立了大规模自回归预训练在通用推理和语言任务上的有效性,而开源指令微调模型如Llama 2[24](https://arxiv.org/html/2605.16347#bib.bib24)则使得领域适配和本地部署的实验更加广泛。 近期工作越来越关注领域特定的技术辅助和科学软件理解。S3LLM[25](https://arxiv.org/html/2605.16347#bib.bib25)探索了利用源代码、文档和元数据集成进行科学软件理解的检索增强语言建模。类似地,Nguyen等人[26](https://arxiv.org/html/2605.16347#bib.bib26)证明了领域特定微调结合迭代推理可以显著提高专业技术领域的问答质量。 专门的面向代码模型,包括Code Llama[27](https://arxiv.org/html/2605.16347#bib.bib27)和Qwen2.5-Coder[28](https://arxiv.org/html/2605.16347#bib.bib28),进一步展示了领域聚焦训练在技术推理和面向软件任务中的价值。然而,操作性HPC支持与常规代码生成不同,因为响应常常需要环境特定的过程知识、调度器语义、集群策略、GPU分配策略和文件系统约定,这些在通用预训练语料库中很少出现。 ### 2.2 检索增强生成 检索增强生成(RAG)通过在响应生成期间动态检索外部知识来增强语言模型推理。早期基础工作包括RAG[29](https://arxiv.org/html/2605.16347#bib.bib29)、REALM[30](https://arxiv.org/html/2605.16347#bib.bib30)和ATLAS[31](https://arxiv.org/html/2605.16347#bib.bib31),确立了检索依据作为提高事实一致性和减少对静态参数记忆依赖的有效机制。 更近期的领域导向RAG研究调查了针对专业和快速变化知识领域的检索系统。BioRAG[32](https://arxiv.org/html/2605.16347#bib.bib32)提出了一个大规模生物医学RAG框架,集成了领域特定嵌入和迭代检索推理,用于生命科学问答。同样,Barron等人[33](https://arxiv.org/html/2605.16347#bib.bib33)调查了向量数据库、知识图谱和结构化表示在领域特定检索增强中的集成。 近期研究还考察了针对科学设施和操作基础设施的检索增强。Prince等人[34](https://arxiv.org/html/2605.16347#bib.bib34)讨论了用于科学计算环境和研究设施的检索和工具增强的LLM系统。这些发展激励了将检索依据用于HPC辅助,其中操作知识频繁变化且通常依赖于机构特定文档。 ### 2.3 轻量级领域适配 参数高效微调方法如LoRA[35](https://arxiv.org/html/2605.16347#bib.bib35)和QLoRA[36](https://arxiv.org/html/2605.16347#bib.bib36)显著降低了将大语言模型适配到专业领域的计算成本。这些方法引入可训练的低秩适配器,同时保持大部分预训练参数冻结,从而在受限GPU内存预算下实现领域适配。 更近期的工作调查了微调与检索增强之间的交互。RAFT[37](https://arxiv.org/html/2605.16347#bib.bib37)提出了用于领域特定适配的检索增强微调(Retrieval-Augmented Fine-Tuning),证明了将检索感知监督与微调结合可以提高领域内性能并减少幻觉。类似地,Li等人[38](https://arxiv.org/html/2605.16347#bib.bib38)考察了将RAG管道与微调结合用于提高领域特定知识库事实准确性的有效性。 在无法进行大规模重新训练的操作部署环境中,轻量级适配的实际重要性也得到了强调。这些发展突显了技术助手和私有部署中对资源高效领域专业化的日益关注。 ### 2.4 面向科学和HPC工作流的AI辅助 近期研究探索了用于科学计算、基础设施操作和面向HPC知识支持的AI辅助系统。Miyashita等人[39](https://arxiv.org/html/2605.16347#bib.bib39)提出了一个检索增强框架,将用户特定HPC操作数据集成到推理管道中,同时解决了HPC环境中的命令执行和安全问题。在更大规模上,HiPerRAG[40](https://arxiv.org/html/2605.16347#bib.bib40)引入了一个高性能科学检索管道,使用HPC基础设施对数百万科学文档进行大规模索引和检索。 这些研究表明将LLM、检索系统和科学计算基础设施相结合的兴趣日益增长。相关工作也在操作性IT和基础设施管理领域出现。Zhang等人[41](https://arxiv.org/html/2605.16347#bib.bib41)调查了用于IT基础设施管理和维护任务的检索增强操作助手。虽然HPC辅助与IT运维支持有相似之处,但HPC环境引入了与调度器、分布式计算、GPU编排和科学工作流相关的额外复杂性。本工作与先前系统的不同之处在于特别关注轻量级可部署性、面向机构的HPC文档摄入以及在受限GPU资源下的本地检索依据辅助。 ### 2.5 操作问答系统的评估挑战 评估操作辅助系统仍然具有挑战性,因为技术上正确的响应可能在措辞上有很大差异,同时仍然具有操作有效性。诸如ROUGE之类的传统词汇重叠指标通常与面向命令的技术问答任务不太匹配。因此,语义相似度指标如BERTScore[42](https://arxiv.org/html/2605.16347#bib.bib42)被提议作为评估生成技术响应的替代方案。 近期研究进一步强调了检索质量、分块策略和领域特定预处理在决定下游问答性能中的重要性。在实际RAG部署中,文档质量和块设计经常被确定为影响检索相关性和生成准确性的主要瓶颈。其他研究也强调了检索增强和微调在领域适配中相对角色的持续挑战。 在面向HPC的辅助系统中,评估因缺乏包含经过验证的操作答案、可执行命令正确性测试和机构特定集群配置的公开可用基准而进一步复杂化。这些局限性促使未来需要包含专家验证和基于操作评估方法的基准数据集。 ## 3 系统架构 HPC-LLM框架被设计为一个面向高性能计算(HPC)环境的模块化检索增强辅助系统。其架构将文档摄入、向量检索、轻量级语言模型推理和编排服务集成在一个可本地部署的管道中。主要设计目标是: - •支持机构特定的HPC知识, - •在受限GPU资源下的轻量级部署, - •检索依据的操作辅助, - •未来领域适配的可扩展性, - •与本地基础设施环境的兼容性。 所提出的系统没有引入新颖的语言模型架构,而是侧重于检索增强、参数高效微调和模块化编排在面向HPC辅助中的实际集成。 图1 (https://arxiv.org/html/2605.16347#S3.F1)展示了HPC-LLM的五层架构:API和仪表盘、多智能体编排、RAG子系统、本地GPU推理和微调管道。所有组件均在本地运行,无需云API密钥。 FastAPI REST API||Web仪表盘 (Chart.js SPA)||Swagger UI (/api/docs) 编排器智能体 协调管道·会话记忆·反馈循环·基准测试运行 爬虫 获取并解析 HPC网页文档 分块并插入 检索 嵌入查询 BGE-large-en Top-k HNSW 生成 本地推理 Flash Attn 2 自动量化 评估 余弦·ROUGE-L·BERTScore F1 HPC领域分数 HPC网页文档 Slurm·MPI·CUDA 80+来源 ChromaDB 持久化 HNSW 余弦索引 LLM模型 Qwen·Llama HPC-LLM (LoRA) 结果 CSV·排行榜 实时仪表盘 插入 图1:HPC-LLM架构。第1行:面向用户的API和仪表盘。第2行:编排器,协调管道、管理会话记忆、异步运行基准测试、处理反馈。第3行:四个专门智能体,从左到右管道流。第4行:支持基础设施。双箭头表示双向访问;弯曲箭头显示爬虫向ChromaDB的插入路径。 ### 3.1 组件概览 API层。一个FastAPI[21](https://arxiv.org/html/2605.16347#bib.bib21)应用程序暴露了符合Pydantic v2模式的REST端点。两个后台asyncio任务持续运行:一个自动爬取循环,每24小时重新摄入HPC文档;一个会话清理循环,每15分钟清除空闲会话。 仪表盘。一个单页HTML/JS应用程序,包含五个部分:概览(雷达图、延迟图)、排行榜、带来源引用的HPC聊天、基准配置和知识库管理(Chart.js)。 ### 3.2 多智能体管道 一个共享的AgentState对象在管道中流动,携带提示、检索到的文档、生成结果和任何错误。 #### 3.2.1 编排器智能体 OrchestratorAgent管理:(1) 通过t
相似文章
大语言模型与本地AI硬件的推理引擎(2026版)
本文提供了一份全面的指南,针对2026年本地AI硬件上的大语言模型推理引擎,解释了如何根据硬件策略、工作负载和服务模型进行选择,并涵盖了诸如llama.cpp、MLX、ExLlamaV2/3、vLLM、SGLang、TensorRT-LLM和NVIDIA Dynamo等引擎。
在单个16GB GPU + 64GB RAM上的本地LLM自动补全与代理式编码
使用 llama.cpp 在单块 16GB GPU 及 64GB+ 内存上设置本地 LLM 自动完成(Qwen2.5-Coder-7B)与代理编码(Qwen3.6-35B-A3B)的技术指南,包含命令与性能基准。
如果你只是自己使用模型而不对外提供服务,vLLM 真的值得用吗?
一名用户讨论了在 AMD 硬件上进行本地单用户推理时,使用 vLLM 与 llama.cpp 之间的权衡,质疑在非企业级环境中 vLLM 的性能优势是否足以弥补其带来的复杂性。
@tom_doerr:通过无代码 GUI 微调大型语言模型 https://github.com/h2oai/h2o-llmstudio…
H2O LLM Studio 是一个开源框架和无代码图形界面,可简化大型语言模型的微调过程,支持 LoRA、DPO 等技术,并能与 Hugging Face 集成。
跨异构任务的自演化LLM记忆抽取
研究者推出BEHEMOTH基准与CluE聚类提示优化,使LLM能从多样化任务中抽取并保留异构记忆,相比既往自演化框架提升9%。