@Hikari_07_jp：我终于让 DeepSeek-V4-Flash MTP 投机解码在 2× RTX PRO 6000 上实际运行了，单流吞吐量提升 38%。它……

X AI KOLs Timeline 2026/06/24 20:39 工具

deepseek speculative-decoding rtx-pro-6000 sm120 quantization throughput fix

摘要

通过修复加载器中量化格式路由错误，在 2× RTX PRO 6000 上实现了 DeepSeek-V4-Flash MTP 投机解码，吞吐量提升 38%。

我终于让 DeepSeek-V4-Flash MTP 投机解码在 2× RTX PRO 6000 上实际运行了 +38% 单流吞吐量。它曾被宣称“在 SM120 上无法工作” 问题不在内核，而是加载器中一条量化格式路由错误 ←关闭 45 tok/s 开启 98 tok/s→ https://t.co/MYvNntPC9S

查看原文

查看缓存全文

缓存时间: 2026/06/25 07:14

我成功让DeepSeek-V4-Flash MTP推测解码在2× RTX PRO 6000上实际运行了
单流吞吐量提升+38%。
它曾被宣称“在SM120上损坏”
问题不在内核。而是加载器中的一个量子化格式路由错误
←开启45 tok/s 关闭98 tok/s→ https://t.co/MYvNntPC9S

@Hikari_07_jp：我终于让 DeepSeek-V4-Flash MTP 投机解码在 2× RTX PRO 6000 上实际运行了，单流吞吐量提升 38%。它……

相似文章

DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测：在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s

@Snixtp: DeepSeek V4 Flash 能否在单张 RTX Pro 6000 上运行？

在本地用4张老款RTX 2080 Ti运行DeepSeek-V4（2000美元预算配置）。自定义图灵内核、W8A8量化，以及255个预填充token/秒！

[基准测试] RTX 5090上的DFlash推测解码与KV缓存压缩 — 3.26倍加速

@antirez: 我没想到 DeepSeek v4 PRO（非 Flash 版本）能在配备 512GB 内存的 Mac Studio M3 Ultra 上流畅运行。这是 2 位量化的……

提交意见反馈