multi-token-prediction

#multi-token-prediction

README_EN.md · openpangu/openPangu-2.0-Flash at main

Reddit r/LocalLLaMA ↗ · 18小时前缓存

openPangu-2.0-Flash 是一个拥有920亿参数（其中60亿激活参数）的MoE模型，基于昇腾训练，支持512k上下文长度并具备快速思考能力。它在推理和编码基准测试上表现强劲，采用了MLA注意力及多令牌预测等架构创新。

0 人收藏 0 人点赞

#multi-token-prediction

@ollama：Gemma 4 在 Apple Silicon 上使用 Ollama 和 MLX 提速近 90%！性能提升得益于改进的多 token 预…

X AI KOLs Following ↗ · 昨天缓存

Ollama 宣布，Gemma 4 在 Apple Silicon 上使用 MLX 后速度提升近 90%，这得益于默认启用的改进多 token 预测机制，并支持自动调节以避免减速。

0 人收藏 0 人点赞

#multi-token-prediction

EntMTP：利用熵引导的多令牌预测加速大语言模型推理

arXiv cs.CL ↗ · 3天前缓存

提出EntMTP，一种无需训练的调度器，基于局部熵估计自适应调整树形注意力拓扑以进行投机解码，相较于Hydra实现1.09-1.15倍加速，相较于Medusa最高达1.36倍加速。

0 人收藏 0 人点赞

#multi-token-prediction

利用冻结的多令牌预测在Pixel上加速Gemini Nano模型（10分钟阅读）

TLDR AI ↗ · 3天前缓存

谷歌研究院推出了一种新架构，使用冻结的Multi-Token Prediction在Pixel设备上加速Gemini Nano模型，显著提升了设备端AI特性的速度和能效。

0 人收藏 0 人点赞

#multi-token-prediction

量化是否会影响MTP的草案率？

Reddit r/LocalLLaMA ↗ · 4天前

本文探讨了量化是否会影响多token预测模型中的草案率，并分析了模型压缩与推理效率之间的潜在权衡。

0 人收藏 0 人点赞

#multi-token-prediction

关于推测解码/MTP的交互式解释器

Reddit r/LocalLLaMA ↗ · 5天前缓存

一个交互式指南，解释了大语言模型中的推测解码和多令牌预测，涵盖了从拒绝采样到Qwen 3.6和Gemma 4中使用的MTP等技术，配有实时图表和滑块。

0 人收藏 0 人点赞

#multi-token-prediction

MTP 下的质量较差 - Qwen 3.6, Gemma 4

Reddit r/LocalLLaMA ↗ · 6天前

用户报告称，Qwen 3.6 和 Gemma 4 的 MTP 版本在代码审查任务中的输出质量低于非 MTP 版本，尽管其 token 生成速率更高，但实际速度提升微乎其微。

0 人收藏 0 人点赞

#multi-token-prediction

@jakevin7: 最近在看 GLM 5.2 相关的文档，发现一些有趣的内容分享一下。 GLM-5.2 用了 MTP（Multi-Token Prediction）来加速推理：用一个轻量的"草稿模型"先快速预测多个 token，再用大模型一次性验证，接受则跳…

X AI KOLs Following ↗ · 2026-06-19 缓存

GLM-5.2采用了MTP（Multi-Token Prediction）技术加速推理，并修复了GLM-5.1中MTP训练推理不一致导致的KV cache混用问题。

0 人收藏 0 人点赞

#multi-token-prediction

SuperThoughts：叠加态中的推理令牌

arXiv cs.LG ↗ · 2026-06-15 缓存

SuperThoughts 将连续的思维链令牌压缩为潜在表示，并每步解码两个令牌，在数学推理基准上实现了约20-30%的思维链长度缩减，准确率损失极小，同时将推理吞吐量提高了一倍。

0 人收藏 0 人点赞

#multi-token-prediction

@no_stp_on_snek: 顺便说一下，这就是我的循环。如你所见，我并没有花太多心思在上面（还有拼写错误什么的），只是评估质量的一个附带任务……

X AI KOLs Following ↗ · 2026-06-14 缓存

发布 Qwopus3.6-27B-v2-MTP，这是一个基于 Qwen3.6-27B 微调的多 token 预测推理模型，针对编码、DevOps 和数学任务进行了优化，并提升了生成速度。

0 人收藏 0 人点赞

#multi-token-prediction

"How NVIDIA Built Nemotron 3 Open Model" by "Caleb Writes Code" x "Joey Conway"

Reddit r/LocalLLaMA ↗ · 2026-06-11 缓存

NVIDIA发布了Nemotron 3开放模型，提供了Nano、Super、Ultra三种尺寸，通过混合Mamba Transformer、潜在MoE和多token预测等架构创新优化硬件效率，并采用Open MDW 1.1开放许可协议。

0 人收藏 0 人点赞

#multi-token-prediction

突破熵界：通过带拒绝采样的多 token 预测加速 RL 训练

Hugging Face Daily Papers ↗ · 2026-06-10 缓存

Bebop 提出了熵感知的多 token 预测，结合拒绝采样和一种新的 TV 损失，以加速 LLM 的 RL 训练，实现最高 1.8 倍的加速。该方法通过优化训练目标，解决了 RL 训练中接受率下降的问题。

0 人收藏 0 人点赞

#multi-token-prediction

关于在Hopper上使DeepSeek V4 Flash达到近200 tok/s的一些技巧

Reddit r/LocalLLaMA ↗ · 2026-06-08 缓存

这篇博文提供了在双GH200工作站上使用vLLM对DeepSeek V4 Flash进行推理，达到近200令牌/秒的技巧和基准测试，重点介绍了使用Canada-Quant的量化检查点和张量并行优化。

0 人收藏 0 人点赞

#multi-token-prediction

llama.cpp - Qwen3.6/3.5-MTP - 分享你的基准测试（t/s）

Reddit r/LocalLLaMA ↗ · 2026-06-03

llama.cpp 发布 b9495 版本，针对 Qwen3.6/3.5-MTP（多令牌预测）进行了优化，并请用户分享他们的基准测试结果及完整的命令详情。

0 人收藏 0 人点赞

#multi-token-prediction

使用LiteRT引擎运行Gemma 4 E4B —— 文本生成比Q4 GGUF快约2.4倍，图像处理速度基本持平

Reddit r/LocalLLaMA ↗ · 2026-06-02

开发者将Gemma 4 E4B在Google LiteRT引擎上的表现与Q4 GGUF量化版本进行对比，发现由于多令牌预测(MTP)，文本生成速度提升约2.4倍，但图像描述仅提升1.1倍。文章提供了一个面向OpenAI兼容端点的Python封装，但存在确定输出、单会话引擎等限制。

0 人收藏 0 人点赞

#multi-token-prediction

bytkim/Qwen3.6-27B-MTP-pi-tune-GGUF

Hugging Face Models Trending ↗ · 2026-06-02 缓存

bytkim 发布了 Qwen3.6-27B 的 4-bit QLoRA SFT 多令牌预测微调版本，打包为 GGUF 格式，用于本地代理编码。该无思考调优版本专为代理循环中的低延迟直接输出而设计。

0 人收藏 0 人点赞

#multi-token-prediction

unsloth 与 bartowski MTP GGUF 对比

Reddit r/LocalLLaMA ↗ · 2026-06-01

对比 unsloth 和 bartowski 在不同尺寸和量化级别下的 Qwen 模型 MTP GGUF 量化方案，发现 unsloth 的 GGUF 通常更小，解码速度相近或更快；MTP 对较大的稠密模型收益更明显。

0 人收藏 0 人点赞

#multi-token-prediction

我在 vLLM 和 llama.cpp 上对 Gemma 4 和 Qwen 3.6 测试了 MTP —— 推理速度提升 3.34 倍，这是我的发现（RTX 6000 PRO）。

Reddit r/LocalLLaMA ↗ · 2026-05-29

使用 vLLM 和 llama.cpp 对 Gemma 4 31B 和 Qwen 3.6 27B 进行的多令牌预测（MTP）基准测试显示，推理速度最高提升 3.34 倍，最优推测令牌数量因模型和引擎而异。

0 人收藏 0 人点赞

#multi-token-prediction

Llama.cpp B9406 MTP mmproj 修复

Reddit r/LocalLLaMA ↗ · 2026-05-29

Llama.cpp 版本 B9406 修复了在使用 MTP 和 MoE 视觉模型（例如 Qwen3.6-35B-A3B）时出现的崩溃问题 (GGML_ASSERT)。

0 人收藏 0 人点赞

#multi-token-prediction

@hank_aibtc: https://x.com/ClementDelangue/status/2058672394865111544/video/1… 本地大模型速度天花板又被打破了！ llama.cpp 原生支持 MTP（多令牌预测）： - 无需额外 dr…

X AI KOLs Timeline ↗ · 2026-05-26 缓存

llama.cpp 原生支持多令牌预测(MTP)，无需额外 draft 模型，利用模型内置预测头，使 Qwen3.6-27B 等本地模型实现 1.7x+ 加速，让 27B 模型在消费级显卡上流畅运行。

0 人收藏 0 人点赞

multi-token-prediction

提交意见反馈