标签
openPangu-2.0-Flash 是一个拥有920亿参数(其中60亿激活参数)的MoE模型,基于昇腾训练,支持512k上下文长度并具备快速思考能力。它在推理和编码基准测试上表现强劲,采用了MLA注意力及多令牌预测等架构创新。
Ollama 宣布,Gemma 4 在 Apple Silicon 上使用 MLX 后速度提升近 90%,这得益于默认启用的改进多 token 预测机制,并支持自动调节以避免减速。
提出EntMTP,一种无需训练的调度器,基于局部熵估计自适应调整树形注意力拓扑以进行投机解码,相较于Hydra实现1.09-1.15倍加速,相较于Medusa最高达1.36倍加速。
谷歌研究院推出了一种新架构,使用冻结的Multi-Token Prediction在Pixel设备上加速Gemini Nano模型,显著提升了设备端AI特性的速度和能效。
本文探讨了量化是否会影响多token预测模型中的草案率,并分析了模型压缩与推理效率之间的潜在权衡。
一个交互式指南,解释了大语言模型中的推测解码和多令牌预测,涵盖了从拒绝采样到Qwen 3.6和Gemma 4中使用的MTP等技术,配有实时图表和滑块。
用户报告称,Qwen 3.6 和 Gemma 4 的 MTP 版本在代码审查任务中的输出质量低于非 MTP 版本,尽管其 token 生成速率更高,但实际速度提升微乎其微。
GLM-5.2采用了MTP(Multi-Token Prediction)技术加速推理,并修复了GLM-5.1中MTP训练推理不一致导致的KV cache混用问题。
SuperThoughts 将连续的思维链令牌压缩为潜在表示,并每步解码两个令牌,在数学推理基准上实现了约20-30%的思维链长度缩减,准确率损失极小,同时将推理吞吐量提高了一倍。
发布 Qwopus3.6-27B-v2-MTP,这是一个基于 Qwen3.6-27B 微调的多 token 预测推理模型,针对编码、DevOps 和数学任务进行了优化,并提升了生成速度。
NVIDIA发布了Nemotron 3开放模型,提供了Nano、Super、Ultra三种尺寸,通过混合Mamba Transformer、潜在MoE和多token预测等架构创新优化硬件效率,并采用Open MDW 1.1开放许可协议。
Bebop 提出了熵感知的多 token 预测,结合拒绝采样和一种新的 TV 损失,以加速 LLM 的 RL 训练,实现最高 1.8 倍的加速。该方法通过优化训练目标,解决了 RL 训练中接受率下降的问题。
这篇博文提供了在双GH200工作站上使用vLLM对DeepSeek V4 Flash进行推理,达到近200令牌/秒的技巧和基准测试,重点介绍了使用Canada-Quant的量化检查点和张量并行优化。
llama.cpp 发布 b9495 版本,针对 Qwen3.6/3.5-MTP(多令牌预测)进行了优化,并请用户分享他们的基准测试结果及完整的命令详情。
开发者将Gemma 4 E4B在Google LiteRT引擎上的表现与Q4 GGUF量化版本进行对比,发现由于多令牌预测(MTP),文本生成速度提升约2.4倍,但图像描述仅提升1.1倍。文章提供了一个面向OpenAI兼容端点的Python封装,但存在确定输出、单会话引擎等限制。
bytkim 发布了 Qwen3.6-27B 的 4-bit QLoRA SFT 多令牌预测微调版本,打包为 GGUF 格式,用于本地代理编码。该无思考调优版本专为代理循环中的低延迟直接输出而设计。
对比 unsloth 和 bartowski 在不同尺寸和量化级别下的 Qwen 模型 MTP GGUF 量化方案,发现 unsloth 的 GGUF 通常更小,解码速度相近或更快;MTP 对较大的稠密模型收益更明显。
使用 vLLM 和 llama.cpp 对 Gemma 4 31B 和 Qwen 3.6 27B 进行的多令牌预测(MTP)基准测试显示,推理速度最高提升 3.34 倍,最优推测令牌数量因模型和引擎而异。
Llama.cpp 版本 B9406 修复了在使用 MTP 和 MoE 视觉模型(例如 Qwen3.6-35B-A3B)时出现的崩溃问题 (GGML_ASSERT)。
llama.cpp 原生支持多令牌预测(MTP),无需额外 draft 模型,利用模型内置预测头,使 Qwen3.6-27B 等本地模型实现 1.7x+ 加速,让 27B 模型在消费级显卡上流畅运行。