multi-token-prediction

#multi-token-prediction

@no_stp_on_snek：首次在我的 llamacpp 分支上测试了 MTP，使用 turbo4 sym。GX10 硬件。使用 MoE 模型：llmfa…

X AI KOLs Following ↗ · 2026-05-22 缓存

在 llamacpp 分支上使用基于 Qwen 的 MoE 模型测试了多 token 预测，相比 fp16 基线获得了 +0.41% 的 PPL 提升。

0 人收藏 0 人点赞

#multi-token-prediction

@rohanpaul_ai: 来自atomic[.]chat的又一个本地LLM好消息，它可以在你的电脑上100%离线运行。他们刚刚展示了MTP（多…

X AI KOLs Following ↗ · 2026-05-21 缓存

atomic.chat的MTP技术通过草拟多个令牌并一起验证它们来加速本地LLM推理，在Qwen 27B密集模型上实现了高达137%的加速，且准确率零损失。

0 人收藏 0 人点赞

#multi-token-prediction

@danyurkin: 我不再需要云模型了

X AI KOLs Following ↗ · 2026-05-20 缓存

一则推文显示，多令牌预测（MTP）在双RTX 5090硬件上为Qwen模型带来了显著的加速，表明本地推理现在可以与云模型性能媲美。

0 人收藏 0 人点赞

#multi-token-prediction

多令牌残差预测

arXiv cs.LG ↗ · 2026-05-20

引入多令牌残差预测（MRP），这是一个用于扩散语言模型的轻量级模块，能够在单次主干前向传播中实现依赖感知的多令牌去噪，实现高达1.42倍的无损加速。

0 人收藏 0 人点赞

#multi-token-prediction

Google AI Edge Gallery v1.0.13 和 v1.0.14 更新：Gemma 4 多令牌预测、Pixel TPU 支持、实验性 MCP、新技能，以及聊天历史保存功能

Reddit r/LocalLLaMA ↗ · 2026-05-19 缓存

Google AI Edge Gallery v1.0.13 和 v1.0.14 更新增加了对 Gemma 4 的多令牌预测支持、Pixel TPU 优化、实验性 MCP、新技能以及聊天历史保存功能，提升了设备端生成式 AI 能力。

0 人收藏 0 人点赞

#multi-token-prediction

@julien_c: 我注意到网上有些困惑，关于如何以最简单的方式运行带MTP（多令牌预测）的llama.cpp……

X AI KOLs Following ↗ · 2026-05-19 缓存

Julien C 解释了如何运行带有MTP（多令牌预测）的llama.cpp，以实现约2倍的生成速度，可以使用Dense 27B或MoE 35B模型，并提供了安装和配置说明。

0 人收藏 0 人点赞

#multi-token-prediction

MTP（多令牌预测）：在AMD Strix Halo和Radeon 9700 AI Pro上实现2倍令牌生成加速

Reddit r/LocalLLaMA ↗ · 2026-05-18

MTP（多令牌预测）可以将LLM推理速度提高2倍，尤其适用于编码代理。本视频展示了Qwen 3.6在AMD Strix Halo和双Radeon 9700上的性能提升。

0 人收藏 0 人点赞

#multi-token-prediction

量化MTP KV缓存 = 免费午餐？

Reddit r/LocalLLaMA ↗ · 2026-05-18

在llama.cpp中将Qwen模型的多令牌预测（MTP）KV缓存量化为q8_0，可以减少VRAM使用，同时不影响推理速度或接受率，实际上为内存受限的配置提供了'免费午餐'。

0 人收藏 0 人点赞

#multi-token-prediction

Jackrong/Qwopus3.5-9B-Coder-MTP-GGUF

Hugging Face Models Trending ↗ · 2026-05-18 缓存

Jackrong 发布了 Qwopus3.5-9B-Coder-MTP-GGUF，这是一个基于 Qwen 的 9B 代码模型，采用多令牌预测 (MTP) 架构进行微调，相较于基模型实现了 35.8% 的吞吐量提升和 8.3% 的准确率提升，在代码和数学基准测试中取得满分。

0 人收藏 0 人点赞

#multi-token-prediction

在 Qwen3.6 - RTX 5090 上测试 llama.cpp 的 MTP 支持

Reddit r/LocalLLaMA ↗ · 2026-05-17

在 RTX 5090 上使用 Qwen3.6 模型对 llama.cpp 的新多标记预测（MTP）支持进行技术测试，比较不同提示和 GGUF 量化下开启和关闭 MTP 的性能表现。

0 人收藏 0 人点赞

#multi-token-prediction

Qwen3.5-122B-Q5-MTP - Qwen3.5-122B-Q6-MTP

Reddit r/LocalLLaMA ↗ · 2026-05-16

在Strix Halo上使用llama.cpp进行多token预测的Qwen3.5-122B Q5和Q6量化模型的基准对比，吞吐量分别为20.24 t/s和17.17 t/s。

0 人收藏 0 人点赞

#multi-token-prediction

@Snixtp: https://x.com/Snixtp/status/2055734339346768225

X AI KOLs Timeline ↗ · 2026-05-16 缓存

某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试，发现MTP在长上下文（32k-64k）下生成速度最高可提升2.37倍，但预填充较慢且暂不支持并发。

0 人收藏 0 人点赞

#multi-token-prediction

b9180 llama.cpp MTP 已落地

Reddit r/LocalLLaMA ↗ · 2026-05-16

llama.cpp 版本 b9180 已发布，支持多令牌预测 (MTP)。此次发布标志着构建成功，开发者们如释重负。

0 人收藏 0 人点赞

#multi-token-prediction

Strix Halo上的llama.cpp多令牌预测（MTP）基准测试：27B模型大幅提速，35B模型表现不一

Reddit r/LocalLLaMA ↗ · 2026-05-16

在Strix Halo上对llama.cpp中的多令牌预测（MTP）进行的基准测试显示，长上下文聊天场景下27B Qwen模型显著加速，而35B模型则表现不一。

0 人收藏 0 人点赞

#multi-token-prediction

MTP 支持已合并至 llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-05-16

为 llama.cpp 添加 MTP（多令牌预测）支持的拉取请求已合并至 master 分支。

0 人收藏 0 人点赞

#multi-token-prediction

llama + spec: 由 am17an 提交的 MTP 支持 · Pull Request #22673 · ggml-org/llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-05-16 缓存

拉取请求为 llama.cpp 添加多令牌预测（MTP）支持，启用推测解码以加速推理。

0 人收藏 0 人点赞

#multi-token-prediction

这是个好消息...

Reddit r/LocalLLaMA ↗ · 2026-05-16

多令牌预测（MTP）已获批准集成到llama.cpp中，表明本地LLM推理工具即将更新。

0 人收藏 0 人点赞

#multi-token-prediction

在LLaMA.cpp + TurboQuant上为Qwen实现的多Token预测（MTP）

Reddit r/LocalLLaMA ↗ · 2026-05-14

在LLaMA.cpp上结合TurboQuant为Qwen实现了多Token预测，性能提升40%，接受率90%，在MacBook Pro M5 Max上本地运行。

0 人收藏 0 人点赞

#multi-token-prediction

运行MTP模型的llama.cpp Docker镜像

Reddit r/LocalLLaMA ↗ · 2026-05-13

提供用于通过 llama.cpp 运行 MTP 模型的 Docker 镜像，包括量化比较和使用说明。

0 人收藏 0 人点赞

#multi-token-prediction

MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-05-12

一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试，比较启用和未启用 MTP（多令牌预测）时的性能。结果显示，在 RTX5090 上使用 Qwen3.6-27B 模型时，启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。

0 人收藏 0 人点赞

multi-token-prediction

提交意见反馈