在本地用4张老款RTX 2080 Ti运行DeepSeek-V4（2000美元预算配置）。自定义图灵内核、W8A8量化，以及255个预填充token/秒！

Reddit r/LocalLLaMA 2026/05/20 00:41 工具

deepseek-v4 local-inference legacy-hardware rtx-2080-ti custom-kernels w8a8-quantization open-source

摘要

一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash（总计284B，激活13B），通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。

嘿，r/DeepSeek，谁说我们需要H100集群或最新昂贵的GPU才能运行前沿MoE模型？我想看看一台消费级老硬件节点能有多大潜力，于是花了不到2500美元搭建了一台预算机，成功在本地运行了**DeepSeek-V4-Flash**（总计284B，激活13B）！令人惊讶的是，在非常紧张的内存预算下，我们达到了大约**255个预填充token/秒**。https://preview.redd.it/cfefgc71732h1.png?width=1772&format=png&auto=webp&s=5c673acca7a2a73cfbd0d2059e25102462c56dfc 以下是我们如何通过软硬件协同优化实现这一“老驴拉巨型MoE战车”壮举的快速分解： # ⚡️ 技术突破 1. **自定义图灵CUDA内核：** 2080 Ti的张量核心仍然可用，但PCIe Gen3和显存带宽是巨大瓶颈。我们重写了专门针对图灵架构定制的CUDA内核，以加速W8A8（INT8）矩阵乘法，大大缓解了带宽瓶颈。 2. **异构推理：** 优化了4张11/22GB显存与1TB系统内存之间的静态内存分配和动态卸载。100%的硬件容量得到利用。 3. **计算与通信重叠：** 实现了流水线执行策略，以隐藏MoE路由导致的大量多GPU通信开销。https://preview.redd.it/5ltwol3z632h1.png?width=2414&format=png&auto=webp&s=6c4c4dcf62737f7f5dcb9a5b8d4aa3f422f7edae # 🖥️ 预算硬件规格 * **CPU：** Intel Xeon E5-2696 v4（多核预算之王的经典） * **GPU：** 4张RTX 2080 Ti（每张11/22GB） * **内存：** 1TB DDR4 ECC 整个实现、部署脚本和初步技术报告均已完全开源。欢迎各位系统/编译器黑客在此分享你们的想法、基准测试或反馈！🔗 **GitHub仓库：**https://github.com/lvyufeng/deepseek-v4-2080ti *（注：我几天前向arXiv提交了详细报告，但目前仍在手动审核队列中——可能是因为一个新手作者用2080 Ti跑DeepSeek-V4触发了他们的审核边界哈哈。等审核通过后我会更新arXiv链接！）* https://reddit.com/link/1ti5sxu/video/uu9ea2l0v62h1/player https://reddit.com/link/1ti5sxu/video/if6alov1v62h1/player

查看原文

在本地用4张老款RTX 2080 Ti运行DeepSeek-V4（2000美元预算配置）。自定义图灵内核、W8A8量化，以及255个预填充token/秒！

相似文章

DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测：在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s

Deepseek V4 Flash 在两块 Nvidia 4090d 48G (ada) 上以 vLLM 运行，速度约 105 t/s

Deepseek V4 Flash 在 RTX 5090 MoE 上运行

DeepSeek V4 Flash（98GB）在单块4060 Ti加CPU上本周速度提升300% [从2t/s到7t/s]

@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行？

提交意见反馈