标签
在 llamacpp 分支上使用基于 Qwen 的 MoE 模型测试了多 token 预测,相比 fp16 基线获得了 +0.41% 的 PPL 提升。
atomic.chat的MTP技术通过草拟多个令牌并一起验证它们来加速本地LLM推理,在Qwen 27B密集模型上实现了高达137%的加速,且准确率零损失。
一则推文显示,多令牌预测(MTP)在双RTX 5090硬件上为Qwen模型带来了显著的加速,表明本地推理现在可以与云模型性能媲美。
引入多令牌残差预测(MRP),这是一个用于扩散语言模型的轻量级模块,能够在单次主干前向传播中实现依赖感知的多令牌去噪,实现高达1.42倍的无损加速。
Google AI Edge Gallery v1.0.13 和 v1.0.14 更新增加了对 Gemma 4 的多令牌预测支持、Pixel TPU 优化、实验性 MCP、新技能以及聊天历史保存功能,提升了设备端生成式 AI 能力。
Julien C 解释了如何运行带有MTP(多令牌预测)的llama.cpp,以实现约2倍的生成速度,可以使用Dense 27B或MoE 35B模型,并提供了安装和配置说明。
MTP(多令牌预测)可以将LLM推理速度提高2倍,尤其适用于编码代理。本视频展示了Qwen 3.6在AMD Strix Halo和双Radeon 9700上的性能提升。
在llama.cpp中将Qwen模型的多令牌预测(MTP)KV缓存量化为q8_0,可以减少VRAM使用,同时不影响推理速度或接受率,实际上为内存受限的配置提供了'免费午餐'。
Jackrong 发布了 Qwopus3.5-9B-Coder-MTP-GGUF,这是一个基于 Qwen 的 9B 代码模型,采用多令牌预测 (MTP) 架构进行微调,相较于基模型实现了 35.8% 的吞吐量提升和 8.3% 的准确率提升,在代码和数学基准测试中取得满分。
在 RTX 5090 上使用 Qwen3.6 模型对 llama.cpp 的新多标记预测(MTP)支持进行技术测试,比较不同提示和 GGUF 量化下开启和关闭 MTP 的性能表现。
在Strix Halo上使用llama.cpp进行多token预测的Qwen3.5-122B Q5和Q6量化模型的基准对比,吞吐量分别为20.24 t/s和17.17 t/s。
某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试,发现MTP在长上下文(32k-64k)下生成速度最高可提升2.37倍,但预填充较慢且暂不支持并发。
llama.cpp 版本 b9180 已发布,支持多令牌预测 (MTP)。此次发布标志着构建成功,开发者们如释重负。
在Strix Halo上对llama.cpp中的多令牌预测(MTP)进行的基准测试显示,长上下文聊天场景下27B Qwen模型显著加速,而35B模型则表现不一。
为 llama.cpp 添加 MTP(多令牌预测)支持的拉取请求已合并至 master 分支。
拉取请求为 llama.cpp 添加多令牌预测(MTP)支持,启用推测解码以加速推理。
在LLaMA.cpp上结合TurboQuant为Qwen实现了多Token预测,性能提升40%,接受率90%,在MacBook Pro M5 Max上本地运行。
提供用于通过 llama.cpp 运行 MTP 模型的 Docker 镜像,包括量化比较和使用说明。
一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试,比较启用和未启用 MTP(多令牌预测)时的性能。结果显示,在 RTX5090 上使用 Qwen3.6-27B 模型时,启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。