在本地用4张老款RTX 2080 Ti运行DeepSeek-V4(2000美元预算配置)。自定义图灵内核、W8A8量化,以及255个预填充token/秒!

Reddit r/LocalLLaMA 工具

摘要

一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash(总计284B,激活13B),通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。

嘿,r/DeepSeek,谁说我们需要H100集群或最新昂贵的GPU才能运行前沿MoE模型?我想看看一台消费级老硬件节点能有多大潜力,于是花了不到2500美元搭建了一台预算机,成功在本地运行了**DeepSeek-V4-Flash**(总计284B,激活13B)!令人惊讶的是,在非常紧张的内存预算下,我们达到了大约**255个预填充token/秒**。https://preview.redd.it/cfefgc71732h1.png?width=1772&format=png&auto=webp&s=5c673acca7a2a73cfbd0d2059e25102462c56dfc 以下是我们如何通过软硬件协同优化实现这一“老驴拉巨型MoE战车”壮举的快速分解: # ⚡️ 技术突破 1. **自定义图灵CUDA内核:** 2080 Ti的张量核心仍然可用,但PCIe Gen3和显存带宽是巨大瓶颈。我们重写了专门针对图灵架构定制的CUDA内核,以加速W8A8(INT8)矩阵乘法,大大缓解了带宽瓶颈。 2. **异构推理:** 优化了4张11/22GB显存与1TB系统内存之间的静态内存分配和动态卸载。100%的硬件容量得到利用。 3. **计算与通信重叠:** 实现了流水线执行策略,以隐藏MoE路由导致的大量多GPU通信开销。https://preview.redd.it/5ltwol3z632h1.png?width=2414&format=png&auto=webp&s=6c4c4dcf62737f7f5dcb9a5b8d4aa3f422f7edae # 🖥️ 预算硬件规格 * **CPU:** Intel Xeon E5-2696 v4(多核预算之王的经典) * **GPU:** 4张RTX 2080 Ti(每张11/22GB) * **内存:** 1TB DDR4 ECC 整个实现、部署脚本和初步技术报告均已完全开源。欢迎各位系统/编译器黑客在此分享你们的想法、基准测试或反馈!🔗 **GitHub仓库:**https://github.com/lvyufeng/deepseek-v4-2080ti *(注:我几天前向arXiv提交了详细报告,但目前仍在手动审核队列中——可能是因为一个新手作者用2080 Ti跑DeepSeek-V4触发了他们的审核边界哈哈。等审核通过后我会更新arXiv链接!)* https://reddit.com/link/1ti5sxu/video/uu9ea2l0v62h1/player https://reddit.com/link/1ti5sxu/video/if6alov1v62h1/player
查看原文

相似文章

@danveloper: https://x.com/danveloper/status/2064387956387758206

X AI KOLs Timeline

一位开发者通过在NVMe SSD上流式传输模型权重,在树莓派5上运行了DeepSeek-V4-Flash,达到了1.3 tokens/秒的速率,功耗仅8瓦,证明了前沿级别的开放权重模型在低成本、离线硬件上的可行性。