@danyurkin: 我不再需要云模型了

X AI KOLs Following 2026/05/20 22:34 新闻

local-ai inference-speed model-optimization multi-token-prediction qwen rtx-5090 edge-inference

摘要

一则推文显示，多令牌预测（MTP）在双RTX 5090硬件上为Qwen模型带来了显著的加速，表明本地推理现在可以与云模型性能媲美。

我不再需要云模型了

查看原文

查看缓存全文

缓存时间: 2026/05/22 09:45

我不再需要云端模型了

atomic.chat (@atomic_chat_hq)： MTP 在 Atomic Chat 中将 Qwen 加速 2.5 倍

在双 RTX 5090 上：Dense 模型 vs MoE 模型 Qwen3.6 27B：51 → 117 tps，提升 +137% Qwen3.6 35B-A3B：218 → 267 tps，提升 +25%

MTP 提前预生成多个 token 并一次性验证。加速效果取决于单次传输的内存大小。Dense 27B 模型需要读取全部 27B 参数。

相似文章

在LLaMA.cpp + TurboQuant上为Qwen实现的多Token预测（MTP）

Reddit r/LocalLLaMA

在LLaMA.cpp上结合TurboQuant为Qwen实现了多Token预测，性能提升40%，接受率90%，在MacBook Pro M5 Max上本地运行。

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA

开发者通过将 MTP（多 Token 预测）与 TurboQuant 的无损 KV缓存压缩技术相结合，在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度，并分享了实现分支和技术细节。

@rumgewieselt：现在变得疯狂了……三块 1080 Ti（Pascal架构，33GB VRAM）Qwen 3.6 27B MTP 搭配 196K TurboQuant，持续 ~28-30 t/s

X AI KOLs Timeline

一位用户成功在三个 GTX 1080 Ti GPU 上对 27B 参数的 Qwen 模型进行本地推理，通过 TurboQuant 优化达到了约 28-30 tokens/秒的速度。

@ggerganov: llama.cpp 为 Qwen3.6 系列添加 MTP 支持，这是本地AI生态系统的一个重要里程碑。性能提…

X AI KOLs Following

llama.cpp 为 Qwen3.6 系列添加了多令牌预测（MTP）支持，为在普通硬件上进行本地AI推理带来了巨大的性能提升。

@davis7：@0xSero 帮我把本地模型配置好了，我没想到它们现在竟然这么强大了。这算是前沿（frontier）级别了吗……