@h100envy: Daniel Han 创建了 Unsloth,这正是半数开源项目能在单张 GPU 而非集群上微调模型的原因。他还……
摘要
Daniel Han 构建了 Unsloth,该工具通过重写 GPU 内核,使单张 GPU 的微调速度提升 2 到 3 倍,让众多开源用户无需集群即可训练模型。
查看缓存全文
缓存时间: 2026/06/18 04:06
Daniel Han 创建了 Unsloth,正是因为这个项目,开源社区的一半人才能在单张 GPU 上微调模型,而无需动用集群。
他并没有优化数学公式,而是手动重写了内核,找出了其他人代码中的种种错误,使得训练速度提升 2 到 3 倍,且准确率完全不受影响。
每个月都有数百万次微调任务在他的代码上运行。绝大多数在本地训练模型的人,其实都在依赖他的成果,却浑然不知。
人人都在谈论谁拥有的 GPU 最多,而他让你的 GPU 变得足够强大。
相似文章
@_vmlops:在单GPU上微调12B模型已成现实 大多数人以为需要庞大的GPU集群才能微调大型语言模型…
Hugging Face 的 PEFT 库实现了在单张 GPU 上对大型模型进行参数高效微调,在降低计算和存储成本的同时保持性能。
@AI_jacksaku: GitHub本周黑马:Unsloth AI模型训练速度提升2-5倍, 显存占用减少80%。 这意味着什么? 以前微调一个大模型, 需要A100集群+几万美金。 现在一张4090, 几小时就能搞定。 Unsloth做了什么? 优化了注意力机…
Unsloth开源工具将大模型微调速度提升2-5倍、显存降低80%,使单张RTX 4090几小时完成原本需A100集群的任务。
@CaptainInsightX: OpenAI花费数十亿美元建设训练基础设施。一对澳大利亚兄弟仅用50万美元就让AI训练速度提升30倍~ M…
丹尼尔·韩和迈克尔·韩兄弟开发了Unsloth,这是一款开源工具,可将LLM微调速度提升2-30倍,内存减少70-90%,仅筹集了50万美元,却与价值数十亿美元的基础设施竞争。
@berryxia: 我靠,肉眼都跟不上这个速度了! Daniel Han,UnslothAI创始人,YC S24,之前在NVIDIA做ML,刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A…
UnslothAI创始人Daniel Han发布了Qwen3.6的实验性MTP GGUF版本,在消费级GPU上实现27B模型140 tokens/s、35B-A3B版本220 tokens/s,速度提升1.4倍且精度零损失。
@Suryanshti777: NVIDIA刚刚揭秘了它们用来让LLM微调显著加速的隐藏技巧。不是新GPU。不是大…
NVIDIA和Unsloth发布了一篇技术指南,详细介绍了三种底层优化方法,可将LLM微调速度提升高达25%,包括打包序列缓存、双缓冲检查点存储和优化的MoE路由。该指南提供了深入的系统级解释和基准测试,面向机器学习工程师和开发者。