在本地用4张老款RTX 2080 Ti运行DeepSeek-V4(2000美元预算配置)。自定义图灵内核、W8A8量化,以及255个预填充token/秒!
摘要
一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash(总计284B,激活13B),通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。
嘿,r/DeepSeek,谁说我们需要H100集群或最新昂贵的GPU才能运行前沿MoE模型?我想看看一台消费级老硬件节点能有多大潜力,于是花了不到2500美元搭建了一台预算机,成功在本地运行了**DeepSeek-V4-Flash**(总计284B,激活13B)!令人惊讶的是,在非常紧张的内存预算下,我们达到了大约**255个预填充token/秒**。https://preview.redd.it/cfefgc71732h1.png?width=1772&format=png&auto=webp&s=5c673acca7a2a73cfbd0d2059e25102462c56dfc 以下是我们如何通过软硬件协同优化实现这一“老驴拉巨型MoE战车”壮举的快速分解:
# ⚡️ 技术突破
1. **自定义图灵CUDA内核:** 2080 Ti的张量核心仍然可用,但PCIe Gen3和显存带宽是巨大瓶颈。我们重写了专门针对图灵架构定制的CUDA内核,以加速W8A8(INT8)矩阵乘法,大大缓解了带宽瓶颈。
2. **异构推理:** 优化了4张11/22GB显存与1TB系统内存之间的静态内存分配和动态卸载。100%的硬件容量得到利用。
3. **计算与通信重叠:** 实现了流水线执行策略,以隐藏MoE路由导致的大量多GPU通信开销。https://preview.redd.it/5ltwol3z632h1.png?width=2414&format=png&auto=webp&s=6c4c4dcf62737f7f5dcb9a5b8d4aa3f422f7edae
# 🖥️ 预算硬件规格
* **CPU:** Intel Xeon E5-2696 v4(多核预算之王的经典)
* **GPU:** 4张RTX 2080 Ti(每张11/22GB)
* **内存:** 1TB DDR4 ECC
整个实现、部署脚本和初步技术报告均已完全开源。欢迎各位系统/编译器黑客在此分享你们的想法、基准测试或反馈!🔗 **GitHub仓库:**https://github.com/lvyufeng/deepseek-v4-2080ti *(注:我几天前向arXiv提交了详细报告,但目前仍在手动审核队列中——可能是因为一个新手作者用2080 Ti跑DeepSeek-V4触发了他们的审核边界哈哈。等审核通过后我会更新arXiv链接!)* https://reddit.com/link/1ti5sxu/video/uu9ea2l0v62h1/player https://reddit.com/link/1ti5sxu/video/if6alov1v62h1/player
相似文章
DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测:在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s
这篇文章详细介绍了一个经过定制并量化的 DeepSeek-V4-Flash 模型版本,启用了 MTP 自推测功能。通过修改后的 vLLM 设置,在双 RTX PRO 6000 Max-Q GPU 上实现了显著的速度提升。
@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行?
antirez 已发布 DeepSeek V4 Flash 的 GGUF 量化版本,使该模型能够在单张 GPU(如 RTX Pro 6000)以及 128GB 以上内存的 Mac 上运行。量化文件已上传至 Hugging Face,并附有 DS4 推理引擎的使用说明。
关于在Hopper上使DeepSeek V4 Flash达到近200 tok/s的一些技巧
这篇博文提供了在双GH200工作站上使用vLLM对DeepSeek V4 Flash进行推理,达到近200令牌/秒的技巧和基准测试,重点介绍了使用Canada-Quant的量化检查点和张量并行优化。
@danveloper: https://x.com/danveloper/status/2064387956387758206
一位开发者通过在NVMe SSD上流式传输模型权重,在树莓派5上运行了DeepSeek-V4-Flash,达到了1.3 tokens/秒的速率,功耗仅8瓦,证明了前沿级别的开放权重模型在低成本、离线硬件上的可行性。
Deepseek v4 Flash 确实惊艳,正准备入手一台 2.5 万美元的电脑
作者称赞 DeepSeek V4 Flash 实现了高性能的本地大语言模型部署,为此计划斥资 2.5 万美元采购硬件,以为对数据隐私要求严格的客户服务。