@h100envy: Daniel Han 创建了 Unsloth，这正是半数开源项目能在单张 GPU 而非集群上微调模型的原因。他还……

X AI KOLs Timeline 2026/06/17 15:11 工具

摘要

Daniel Han 构建了 Unsloth，该工具通过重写 GPU 内核，使单张 GPU 的微调速度提升 2 到 3 倍，让众多开源用户无需集群即可训练模型。

Daniel Han 编写了 Unsloth，这正是半数开源项目能在单张 GPU 而非集群上微调模型的原因。他没有优化数学运算，而是手动重写了内核，发现并修复了他人代码中的错误，将训练速度提升了 2 到 3 倍，且准确率零损失。每月有数百万次微调任务通过他的代码运行。大多数在本地训练模型的人正站在这项成果之上而不自知。每个人都在谈论谁拥有最多的 GPU。而他让你的 GPU 变得足够用。

查看原文

查看缓存全文

缓存时间: 2026/06/18 04:06

Daniel Han 创建了 Unsloth，正是因为这个项目，开源社区的一半人才能在单张 GPU 上微调模型，而无需动用集群。

他并没有优化数学公式，而是手动重写了内核，找出了其他人代码中的种种错误，使得训练速度提升 2 到 3 倍，且准确率完全不受影响。

每个月都有数百万次微调任务在他的代码上运行。绝大多数在本地训练模型的人，其实都在依赖他的成果，却浑然不知。

人人都在谈论谁拥有的 GPU 最多，而他让你的 GPU 变得足够强大。

相似文章

@_vmlops：在单GPU上微调12B模型已成现实大多数人以为需要庞大的GPU集群才能微调大型语言模型…

X AI KOLs Timeline

Hugging Face 的 PEFT 库实现了在单张 GPU 上对大型模型进行参数高效微调，在降低计算和存储成本的同时保持性能。

@AI_jacksaku: GitHub本周黑马：Unsloth AI模型训练速度提升2-5倍，显存占用减少80%。这意味着什么？以前微调一个大模型，需要A100集群+几万美金。现在一张4090，几小时就能搞定。 Unsloth做了什么？优化了注意力机…

X AI KOLs Timeline

Unsloth开源工具将大模型微调速度提升2-5倍、显存降低80%，使单张RTX 4090几小时完成原本需A100集群的任务。

@CaptainInsightX: OpenAI花费数十亿美元建设训练基础设施。一对澳大利亚兄弟仅用50万美元就让AI训练速度提升30倍~ M…

X AI KOLs Timeline

丹尼尔·韩和迈克尔·韩兄弟开发了Unsloth，这是一款开源工具，可将LLM微调速度提升2-30倍，内存减少70-90%，仅筹集了50万美元，却与价值数十亿美元的基础设施竞争。

@berryxia: 我靠，肉眼都跟不上这个速度了！ Daniel Han，UnslothAI创始人，YC S24，之前在NVIDIA做ML，刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A…

X AI KOLs Timeline

UnslothAI创始人Daniel Han发布了Qwen3.6的实验性MTP GGUF版本，在消费级GPU上实现27B模型140 tokens/s、35B-A3B版本220 tokens/s，速度提升1.4倍且精度零损失。

@Suryanshti777: NVIDIA刚刚揭秘了它们用来让LLM微调显著加速的隐藏技巧。不是新GPU。不是大…

X AI KOLs Timeline

NVIDIA和Unsloth发布了一篇技术指南，详细介绍了三种底层优化方法，可将LLM微调速度提升高达25%，包括打包序列缓存、双缓冲检查点存储和优化的MoE路由。该指南提供了深入的系统级解释和基准测试，面向机器学习工程师和开发者。

相似文章

@_vmlops：在单GPU上微调12B模型已成现实 大多数人以为需要庞大的GPU集群才能微调大型语言模型…

@AI_jacksaku: GitHub本周黑马：Unsloth AI模型训练速度提升2-5倍， 显存占用减少80%。 这意味着什么？ 以前微调一个大模型， 需要A100集群+几万美金。 现在一张4090， 几小时就能搞定。 Unsloth做了什么？ 优化了注意力机…

@CaptainInsightX: OpenAI花费数十亿美元建设训练基础设施。一对澳大利亚兄弟仅用50万美元就让AI训练速度提升30倍~ M…

@berryxia: 我靠，肉眼都跟不上这个速度了！ Daniel Han，UnslothAI创始人，YC S24，之前在NVIDIA做ML，刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A…

@Suryanshti777: NVIDIA刚刚揭秘了它们用来让LLM微调显著加速的隐藏技巧。不是新GPU。不是大…

提交意见反馈

@_vmlops：在单GPU上微调12B模型已成现实大多数人以为需要庞大的GPU集群才能微调大型语言模型…

@AI_jacksaku: GitHub本周黑马：Unsloth AI模型训练速度提升2-5倍，显存占用减少80%。这意味着什么？以前微调一个大模型，需要A100集群+几万美金。现在一张4090，几小时就能搞定。 Unsloth做了什么？优化了注意力机…