@Hikari_07_jp:我终于让 DeepSeek-V4-Flash MTP 投机解码在 2× RTX PRO 6000 上实际运行了,单流吞吐量提升 38%。它……
摘要
通过修复加载器中量化格式路由错误,在 2× RTX PRO 6000 上实现了 DeepSeek-V4-Flash MTP 投机解码,吞吐量提升 38%。
查看缓存全文
缓存时间: 2026/06/25 07:14
我成功让DeepSeek-V4-Flash MTP推测解码在2× RTX PRO 6000上实际运行了
单流吞吐量提升+38%。
它曾被宣称“在SM120上损坏”
问题不在内核。而是加载器中的一个量子化格式路由错误
←开启45 tok/s 关闭98 tok/s→ https://t.co/MYvNntPC9S
相似文章
DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测:在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s
这篇文章详细介绍了一个经过定制并量化的 DeepSeek-V4-Flash 模型版本,启用了 MTP 自推测功能。通过修改后的 vLLM 设置,在双 RTX PRO 6000 Max-Q GPU 上实现了显著的速度提升。
@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行?
antirez 已发布 DeepSeek V4 Flash 的 GGUF 量化版本,使该模型能够在单张 GPU(如 RTX Pro 6000)以及 128GB 以上内存的 Mac 上运行。量化文件已上传至 Hugging Face,并附有 DS4 推理引擎的使用说明。
在本地用4张老款RTX 2080 Ti运行DeepSeek-V4(2000美元预算配置)。自定义图灵内核、W8A8量化,以及255个预填充token/秒!
一位开发者成功在四张RTX 2080 Ti GPU上以2500美元预算本地运行DeepSeek-V4-Flash(总计284B,激活13B),通过自定义图灵CUDA内核、W8A8量化和异构推理实现了255个预填充token/秒。该实现已开源。
[基准测试] RTX 5090上的DFlash推测解码与KV缓存压缩 — 3.26倍加速
在 RTX 5090 上对 DFlash 推测解码结合 KV 缓存压缩进行的基准测试显示,针对 Qwen3.6-27B 模型最高可实现 3.26 倍加速,且困惑度下降极小,其中 q4_0/turbo4 提供了最佳平衡。
@antirez: 我没想到 DeepSeek v4 PRO(非 Flash 版本)能在配备 512GB 内存的 Mac Studio M3 Ultra 上流畅运行。这是 2 位量化的……
Antirez 报告称,DeepSeek v4 PRO 在配备 512GB 内存的 Mac Studio M3 Ultra 上使用 2 位量化运行良好,预填充速度达到 130 t/s,生成速度达到 13 t/s。