mtp

#mtp

TurboQuant+MTP在ROCm(Llama CPP)上的实现

Reddit r/LocalLLaMA ↗ · 昨天

一位开发者成功在llama.cpp中让TurboQuant TBQ4 KV缓存和多Token预测在AMD ROCm上针对RDNA3 GPU运行，实现在24GB显存上支持64k上下文，并具有有竞争力的token速率。

0 人收藏 0 人点赞

#mtp

@berryxia: 我靠，肉眼都跟不上这个速度了！ Daniel Han，UnslothAI创始人，YC S24，之前在NVIDIA做ML，刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A…

X AI KOLs Timeline ↗ · 2天前

UnslothAI创始人Daniel Han发布了Qwen3.6的实验性MTP GGUF版本，在消费级GPU上实现27B模型140 tokens/s、35B-A3B版本220 tokens/s，速度提升1.4倍且精度零损失。

0 人收藏 0 人点赞

#mtp

MTP 基准测试结果：生成任务的性质决定了你是会受益于推测性推理（如编程）还是导致推理变慢（如创意写作）。没有其他因素接近其影响力。

Reddit r/LocalLLaMA ↗ · 5天前

对 Qwen 3.6 27B 基准的系统性分析揭示，推测性推理（MTP）显著加速了编程任务，但会减慢创意写作速度，任务类型的影响远超量化或温度设置。

0 人收藏 0 人点赞

#mtp

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Reddit r/LocalLLaMA ↗ · 6天前

一名用户分享了一份配置方案，该方案在使用 llama.cpp 和多令牌预测（MTP）的情况下，能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

0 人收藏 0 人点赞

#mtp

MTP 关键在于接受率

Reddit r/LocalLLaMA ↗ · 2026-05-08

一位用户在 M4 Max Studio 上使用 mlx-vlm 对 Gemma 4 进行了 MTP（多令牌预测）基准测试，发现它在代码生成方面表现出色（速度快 1.53 倍，接受率 66%），但对 JSON 输出不利（速度慢 50%，接受率仅 8%），对长篇散文则影响中性，表明当令牌接受率低于 50% 时，MTP 的优势便荡然无存。

1 人收藏 1 人点赞

#mtp

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA ↗ · 2026-05-08

开发者通过将 MTP（多 Token 预测）与 TurboQuant 的无损 KV缓存压缩技术相结合，在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度，并分享了实现分支和技术细节。

1 人收藏 1 人点赞

#mtp

@ivanfioravanti: llamacpp 即将支持 MTP！

X AI KOLs Following ↗ · 2026-05-08 缓存

llamacpp 即将支持多令牌预测（MTP），提升推理效率。

0 人收藏 0 人点赞

#mtp

提取的MTP张量GGUF文件——用于嫁接的较小捐赠模型。

Reddit r/LocalLLaMA ↗ · 2026-05-07

作者提供了仅包含Qwen3.6模型MTP张量的提取GGUF文件，用户可通过显著小于完整模型文件的下载大小来嫁接张量。

0 人收藏 0 人点赞

mtp

提交意见反馈