单GPU微调的高效异构协同设计
摘要
SlideFormer 提出了一种异构协同设计,用于在单GPU上进行全参数LLM微调,利用GPU/CPU/RAM/NVMe及其层滑动引擎和优化的Triton内核,在单张RTX 4090上实现对123B+模型的微调,吞吐量显著提升。
查看缓存全文
缓存时间: 2026/07/01 21:40
论文页面 - 面向单GPU微调的高效异构协同设计
来源:https://huggingface.co/papers/2603.16428
这并不是一个全新的课题。在异构内存约束下进行单GPU训练/微调超大规模模型已被探索多年,从STRONGHOLD(SC’22)到Ratel(ICDE’25),再到我们最新公开的工作SlideFormer(2026年3月17日发布,并被DAC 2026录用),该工作在该研究方向上属于较早的公开且经同行评审的贡献。
在SlideFormer中,我们通过GPU/CPU/RAM/NVMe之间的异构协同设计,研究单GPU上的全参数LLM微调,包含:
轻量级异步层滑动引擎、高效异构内存管理、集成高级I/O以及优化的Triton内核。
SlideFormer使得在单块RTX 4090上便可微调123B+参数的模型,在NVIDIA和AMD GPU上均可维持>95%的峰值性能,相比基线提升吞吐量1.40倍至6.27倍,同时大幅降低内存使用。
不过,我们也想强调,“单GPU微调100B+模型”主要应被视为一个系统压力测试/屋顶线式的极端点,用于评估框架设计和内存编排。在实际应用中,对于RTX 4090/RTX 5090/RTX Pro 6000等GPU,更具生产力的微调甜区通常在3B-14B参数范围,此时周转时间更为实际。
我们的代码计划于2026年5月发布,因为我们仍在进行该项目的下一阶段工作。与此同时,核心思想和系统设计已在论文中阐述,从稿件本身基本可以理解。我们欢迎社区讨论,也乐意看到相关想法被采纳、扩展或集成到现有训练框架中。
论文:arXiv:2603.16428
代码发布:计划于2026年5月
图片(https://cdn-uploads.huggingface.co/production/uploads/66dfe6e53b28984659e4e93f/AVBC14tvfu802pd9n2ouv.png)
图片(https://cdn-uploads.huggingface.co/production/uploads/66dfe6e53b28984659e4e93f/0aTm8kiQiZnZuJJKcQdjG.png)
相似文章
@_vmlops:在单GPU上微调12B模型已成现实 大多数人以为需要庞大的GPU集群才能微调大型语言模型…
Hugging Face 的 PEFT 库实现了在单张 GPU 上对大型模型进行参数高效微调,在降低计算和存储成本的同时保持性能。
如果GPU能跑推理,那也应该能微调。[P]
USAF(超稀疏自适应微调)是一种新方法,允许在消费级GPU(包括AMD硬件)上微调MoE模型,仅需12GB VRAM。与无法做到的LoRA/QLoRA不同,USAF只训练最重要的稀疏权重和路由器。
@h100envy: Daniel Han 创建了 Unsloth,这正是半数开源项目能在单张 GPU 而非集群上微调模型的原因。他还……
Daniel Han 构建了 Unsloth,该工具通过重写 GPU 内核,使单张 GPU 的微调速度提升 2 到 3 倍,让众多开源用户无需集群即可训练模型。
@Suryanshti777: NVIDIA刚刚揭秘了它们用来让LLM微调显著加速的隐藏技巧。不是新GPU。不是大…
NVIDIA和Unsloth发布了一篇技术指南,详细介绍了三种底层优化方法,可将LLM微调速度提升高达25%,包括打包序列缓存、双缓冲检查点存储和优化的MoE路由。该指南提供了深入的系统级解释和基准测试,面向机器学习工程师和开发者。
@leopardracer: https://x.com/leopardracer/status/2055341758523883631
一位用户分享了他们搭建双GPU本地AI实验室的经验,使用了RTX 4080 Super和5060 Ti,通过llama.cpp和llama-swap运行Qwen 3.6模型,以降低API成本并实现无限制的实验。