单GPU微调的高效异构协同设计

Papers with Code Trending 2026/03/17 00:00 论文

fine-tuning single-gpu heterogeneous-memory llm system-design triton-kernels full-parameter

摘要

SlideFormer 提出了一种异构协同设计，用于在单GPU上进行全参数LLM微调，利用GPU/CPU/RAM/NVMe及其层滑动引擎和优化的Triton内核，在单张RTX 4090上实现对123B+模型的微调，吞吐量显著提升。

微调大语言模型（LLMs）已成为领域适配的关键，但其高内存需求超出了大多数GPU的能力。为应对这一挑战并普及LLM微调，我们提出了SlideFormer，一种专为单GPU环境设计的新型系统。我们的创新包括：(1) 轻量级异步引擎，将GPU视为滑动窗口，并使GPU计算与CPU更新及多层I/O重叠。(2) 高效异构内存管理方案，显著降低峰值内存使用。(3) 优化的Triton内核，解决关键瓶颈并集成高级I/O。这种协同设计可在单张RTX 4090上对最新的123B+模型进行微调，支持高达8倍更大的批处理规模和6倍更大的模型。在评估中，SlideFormer实现了1.40倍至6.27倍的吞吐量提升，同时CPU/GPU内存使用量相比基线减少约一半，在NVIDIA和AMD GPU上均保持>95%的峰值性能。

查看原文

查看缓存全文

缓存时间: 2026/07/01 21:40

论文页面 - 面向单GPU微调的高效异构协同设计

来源：https://huggingface.co/papers/2603.16428

这并不是一个全新的课题。在异构内存约束下进行单GPU训练/微调超大规模模型已被探索多年，从STRONGHOLD（SC’22）到Ratel（ICDE’25），再到我们最新公开的工作SlideFormer（2026年3月17日发布，并被DAC 2026录用），该工作在该研究方向上属于较早的公开且经同行评审的贡献。

在SlideFormer中，我们通过GPU/CPU/RAM/NVMe之间的异构协同设计，研究单GPU上的全参数LLM微调，包含：

轻量级异步层滑动引擎、高效异构内存管理、集成高级I/O以及优化的Triton内核。

SlideFormer使得在单块RTX 4090上便可微调123B+参数的模型，在NVIDIA和AMD GPU上均可维持>95%的峰值性能，相比基线提升吞吐量1.40倍至6.27倍，同时大幅降低内存使用。

不过，我们也想强调，“单GPU微调100B+模型”主要应被视为一个系统压力测试/屋顶线式的极端点，用于评估框架设计和内存编排。在实际应用中，对于RTX 4090/RTX 5090/RTX Pro 6000等GPU，更具生产力的微调甜区通常在3B-14B参数范围，此时周转时间更为实际。

我们的代码计划于2026年5月发布，因为我们仍在进行该项目的下一阶段工作。与此同时，核心思想和系统设计已在论文中阐述，从稿件本身基本可以理解。我们欢迎社区讨论，也乐意看到相关想法被采纳、扩展或集成到现有训练框架中。

论文：arXiv:2603.16428
代码发布：计划于2026年5月

图片（https://cdn-uploads.huggingface.co/production/uploads/66dfe6e53b28984659e4e93f/AVBC14tvfu802pd9n2ouv.png）

图片（https://cdn-uploads.huggingface.co/production/uploads/66dfe6e53b28984659e4e93f/0aTm8kiQiZnZuJJKcQdjG.png）

单GPU微调的高效异构协同设计

论文页面 - 面向单GPU微调的高效异构协同设计

相似文章

@_vmlops：在单GPU上微调12B模型已成现实大多数人以为需要庞大的GPU集群才能微调大型语言模型…

如果GPU能跑推理，那也应该能微调。[P]

@h100envy: Daniel Han 创建了 Unsloth，这正是半数开源项目能在单张 GPU 而非集群上微调模型的原因。他还……

@Suryanshti777: NVIDIA刚刚揭秘了它们用来让LLM微调显著加速的隐藏技巧。不是新GPU。不是大…

@leopardracer: https://x.com/leopardracer/status/2055341758523883631

提交意见反馈

论文页面 - 面向单GPU微调的高效异构协同设计

相似文章

@_vmlops：在单GPU上微调12B模型已成现实 大多数人以为需要庞大的GPU集群才能微调大型语言模型…

如果GPU能跑推理，那也应该能微调。[P]

@h100envy: Daniel Han 创建了 Unsloth，这正是半数开源项目能在单张 GPU 而非集群上微调模型的原因。他还……

@Suryanshti777: NVIDIA刚刚揭秘了它们用来让LLM微调显著加速的隐藏技巧。不是新GPU。不是大…

@leopardracer: https://x.com/leopardracer/status/2055341758523883631

提交意见反馈

@_vmlops：在单GPU上微调12B模型已成现实大多数人以为需要庞大的GPU集群才能微调大型语言模型…