@Hikari_07_jp:我终于让 DeepSeek-V4-Flash MTP 投机解码在 2× RTX PRO 6000 上实际运行了,单流吞吐量提升 38%。它……

X AI KOLs Timeline 工具

摘要

通过修复加载器中量化格式路由错误,在 2× RTX PRO 6000 上实现了 DeepSeek-V4-Flash MTP 投机解码,吞吐量提升 38%。

我终于让 DeepSeek-V4-Flash MTP 投机解码在 2× RTX PRO 6000 上实际运行了 +38% 单流吞吐量。 它曾被宣称“在 SM120 上无法工作” 问题不在内核,而是加载器中一条量化格式路由错误 ←关闭 45 tok/s 开启 98 tok/s→ https://t.co/MYvNntPC9S
查看原文
查看缓存全文

缓存时间: 2026/06/25 07:14

我成功让DeepSeek-V4-Flash MTP推测解码在2× RTX PRO 6000上实际运行了
单流吞吐量提升+38%。
它曾被宣称“在SM120上损坏”
问题不在内核。而是加载器中的一个量子化格式路由错误
←开启45 tok/s 关闭98 tok/s→ https://t.co/MYvNntPC9S

相似文章