单GPU微调的高效异构协同设计

Papers with Code Trending 论文

摘要

SlideFormer 提出了一种异构协同设计,用于在单GPU上进行全参数LLM微调,利用GPU/CPU/RAM/NVMe及其层滑动引擎和优化的Triton内核,在单张RTX 4090上实现对123B+模型的微调,吞吐量显著提升。

微调大语言模型(LLMs)已成为领域适配的关键,但其高内存需求超出了大多数GPU的能力。为应对这一挑战并普及LLM微调,我们提出了SlideFormer,一种专为单GPU环境设计的新型系统。我们的创新包括:(1) 轻量级异步引擎,将GPU视为滑动窗口,并使GPU计算与CPU更新及多层I/O重叠。(2) 高效异构内存管理方案,显著降低峰值内存使用。(3) 优化的Triton内核,解决关键瓶颈并集成高级I/O。这种协同设计可在单张RTX 4090上对最新的123B+模型进行微调,支持高达8倍更大的批处理规模和6倍更大的模型。在评估中,SlideFormer实现了1.40倍至6.27倍的吞吐量提升,同时CPU/GPU内存使用量相比基线减少约一半,在NVIDIA和AMD GPU上均保持>95%的峰值性能。
查看原文
查看缓存全文

缓存时间: 2026/07/01 21:40

论文页面 - 面向单GPU微调的高效异构协同设计

来源:https://huggingface.co/papers/2603.16428

这并不是一个全新的课题。在异构内存约束下进行单GPU训练/微调超大规模模型已被探索多年,从STRONGHOLD(SC’22)到Ratel(ICDE’25),再到我们最新公开的工作SlideFormer(2026年3月17日发布,并被DAC 2026录用),该工作在该研究方向上属于较早的公开且经同行评审的贡献。

在SlideFormer中,我们通过GPU/CPU/RAM/NVMe之间的异构协同设计,研究单GPU上的全参数LLM微调,包含:

轻量级异步层滑动引擎、高效异构内存管理、集成高级I/O以及优化的Triton内核。

SlideFormer使得在单块RTX 4090上便可微调123B+参数的模型,在NVIDIA和AMD GPU上均可维持>95%的峰值性能,相比基线提升吞吐量1.40倍至6.27倍,同时大幅降低内存使用。

不过,我们也想强调,“单GPU微调100B+模型”主要应被视为一个系统压力测试/屋顶线式的极端点,用于评估框架设计和内存编排。在实际应用中,对于RTX 4090/RTX 5090/RTX Pro 6000等GPU,更具生产力的微调甜区通常在3B-14B参数范围,此时周转时间更为实际。

我们的代码计划于2026年5月发布,因为我们仍在进行该项目的下一阶段工作。与此同时,核心思想和系统设计已在论文中阐述,从稿件本身基本可以理解。我们欢迎社区讨论,也乐意看到相关想法被采纳、扩展或集成到现有训练框架中。

论文:arXiv:2603.16428
代码发布:计划于2026年5月

图片(https://cdn-uploads.huggingface.co/production/uploads/66dfe6e53b28984659e4e93f/AVBC14tvfu802pd9n2ouv.png)

图片(https://cdn-uploads.huggingface.co/production/uploads/66dfe6e53b28984659e4e93f/0aTm8kiQiZnZuJJKcQdjG.png)

相似文章

如果GPU能跑推理,那也应该能微调。[P]

Reddit r/MachineLearning

USAF(超稀疏自适应微调)是一种新方法,允许在消费级GPU(包括AMD硬件)上微调MoE模型,仅需12GB VRAM。与无法做到的LoRA/QLoRA不同,USAF只训练最重要的稀疏权重和路由器。