multi-token-prediction

标签

Cards List
#multi-token-prediction

@no_stp_on_snek:首次在我的 llamacpp 分支上测试了 MTP,使用 turbo4 sym。GX10 硬件。使用 MoE 模型:llmfa…

X AI KOLs Following · 2026-05-22 缓存

在 llamacpp 分支上使用基于 Qwen 的 MoE 模型测试了多 token 预测,相比 fp16 基线获得了 +0.41% 的 PPL 提升。

0 人收藏 0 人点赞
#multi-token-prediction

@rohanpaul_ai: 来自atomic[.]chat的又一个本地LLM好消息,它可以在你的电脑上100%离线运行。他们刚刚展示了MTP(多…

X AI KOLs Following · 2026-05-21 缓存

atomic.chat的MTP技术通过草拟多个令牌并一起验证它们来加速本地LLM推理,在Qwen 27B密集模型上实现了高达137%的加速,且准确率零损失。

0 人收藏 0 人点赞
#multi-token-prediction

@danyurkin: 我不再需要云模型了

X AI KOLs Following · 2026-05-20 缓存

一则推文显示,多令牌预测(MTP)在双RTX 5090硬件上为Qwen模型带来了显著的加速,表明本地推理现在可以与云模型性能媲美。

0 人收藏 0 人点赞
#multi-token-prediction

多令牌残差预测

arXiv cs.LG · 2026-05-20

引入多令牌残差预测(MRP),这是一个用于扩散语言模型的轻量级模块,能够在单次主干前向传播中实现依赖感知的多令牌去噪,实现高达1.42倍的无损加速。

0 人收藏 0 人点赞
#multi-token-prediction

Google AI Edge Gallery v1.0.13 和 v1.0.14 更新:Gemma 4 多令牌预测、Pixel TPU 支持、实验性 MCP、新技能,以及聊天历史保存功能

Reddit r/LocalLLaMA · 2026-05-19 缓存

Google AI Edge Gallery v1.0.13 和 v1.0.14 更新增加了对 Gemma 4 的多令牌预测支持、Pixel TPU 优化、实验性 MCP、新技能以及聊天历史保存功能,提升了设备端生成式 AI 能力。

0 人收藏 0 人点赞
#multi-token-prediction

@julien_c: 我注意到网上有些困惑,关于如何以最简单的方式运行带MTP(多令牌预测)的llama.cpp……

X AI KOLs Following · 2026-05-19 缓存

Julien C 解释了如何运行带有MTP(多令牌预测)的llama.cpp,以实现约2倍的生成速度,可以使用Dense 27B或MoE 35B模型,并提供了安装和配置说明。

0 人收藏 0 人点赞
#multi-token-prediction

MTP(多令牌预测):在AMD Strix Halo和Radeon 9700 AI Pro上实现2倍令牌生成加速

Reddit r/LocalLLaMA · 2026-05-18

MTP(多令牌预测)可以将LLM推理速度提高2倍,尤其适用于编码代理。本视频展示了Qwen 3.6在AMD Strix Halo和双Radeon 9700上的性能提升。

0 人收藏 0 人点赞
#multi-token-prediction

量化MTP KV缓存 = 免费午餐?

Reddit r/LocalLLaMA · 2026-05-18

在llama.cpp中将Qwen模型的多令牌预测(MTP)KV缓存量化为q8_0,可以减少VRAM使用,同时不影响推理速度或接受率,实际上为内存受限的配置提供了'免费午餐'。

0 人收藏 0 人点赞
#multi-token-prediction

Jackrong/Qwopus3.5-9B-Coder-MTP-GGUF

Hugging Face Models Trending · 2026-05-18 缓存

Jackrong 发布了 Qwopus3.5-9B-Coder-MTP-GGUF,这是一个基于 Qwen 的 9B 代码模型,采用多令牌预测 (MTP) 架构进行微调,相较于基模型实现了 35.8% 的吞吐量提升和 8.3% 的准确率提升,在代码和数学基准测试中取得满分。

0 人收藏 0 人点赞
#multi-token-prediction

在 Qwen3.6 - RTX 5090 上测试 llama.cpp 的 MTP 支持

Reddit r/LocalLLaMA · 2026-05-17

在 RTX 5090 上使用 Qwen3.6 模型对 llama.cpp 的新多标记预测(MTP)支持进行技术测试,比较不同提示和 GGUF 量化下开启和关闭 MTP 的性能表现。

0 人收藏 0 人点赞
#multi-token-prediction

Qwen3.5-122B-Q5-MTP - Qwen3.5-122B-Q6-MTP

Reddit r/LocalLLaMA · 2026-05-16

在Strix Halo上使用llama.cpp进行多token预测的Qwen3.5-122B Q5和Q6量化模型的基准对比,吞吐量分别为20.24 t/s和17.17 t/s。

0 人收藏 0 人点赞
#multi-token-prediction

@Snixtp: https://x.com/Snixtp/status/2055734339346768225

X AI KOLs Timeline · 2026-05-16 缓存

某用户使用llama.cpp在单张RTX 3090上对Qwen3.6 27B的MTP变体与普通版本进行了基准测试,发现MTP在长上下文(32k-64k)下生成速度最高可提升2.37倍,但预填充较慢且暂不支持并发。

0 人收藏 0 人点赞
#multi-token-prediction

b9180 llama.cpp MTP 已落地

Reddit r/LocalLLaMA · 2026-05-16

llama.cpp 版本 b9180 已发布,支持多令牌预测 (MTP)。此次发布标志着构建成功,开发者们如释重负。

0 人收藏 0 人点赞
#multi-token-prediction

Strix Halo上的llama.cpp多令牌预测(MTP)基准测试:27B模型大幅提速,35B模型表现不一

Reddit r/LocalLLaMA · 2026-05-16

在Strix Halo上对llama.cpp中的多令牌预测(MTP)进行的基准测试显示,长上下文聊天场景下27B Qwen模型显著加速,而35B模型则表现不一。

0 人收藏 0 人点赞
#multi-token-prediction

MTP 支持已合并至 llama.cpp

Reddit r/LocalLLaMA · 2026-05-16

为 llama.cpp 添加 MTP(多令牌预测)支持的拉取请求已合并至 master 分支。

0 人收藏 0 人点赞
#multi-token-prediction

llama + spec: 由 am17an 提交的 MTP 支持 · Pull Request #22673 · ggml-org/llama.cpp

Reddit r/LocalLLaMA · 2026-05-16 缓存

拉取请求为 llama.cpp 添加多令牌预测(MTP)支持,启用推测解码以加速推理。

0 人收藏 0 人点赞
#multi-token-prediction

这是个好消息...

Reddit r/LocalLLaMA · 2026-05-16

多令牌预测(MTP)已获批准集成到llama.cpp中,表明本地LLM推理工具即将更新。

0 人收藏 0 人点赞
#multi-token-prediction

在LLaMA.cpp + TurboQuant上为Qwen实现的多Token预测(MTP)

Reddit r/LocalLLaMA · 2026-05-14

在LLaMA.cpp上结合TurboQuant为Qwen实现了多Token预测,性能提升40%,接受率90%,在MacBook Pro M5 Max上本地运行。

0 人收藏 0 人点赞
#multi-token-prediction

运行MTP模型的llama.cpp Docker镜像

Reddit r/LocalLLaMA · 2026-05-13

提供用于通过 llama.cpp 运行 MTP 模型的 Docker 镜像,包括量化比较和使用说明。

0 人收藏 0 人点赞
#multi-token-prediction

MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp

Reddit r/LocalLLaMA · 2026-05-12

一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试,比较启用和未启用 MTP(多令牌预测)时的性能。结果显示,在 RTX5090 上使用 Qwen3.6-27B 模型时,启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。

0 人收藏 0 人点赞
← Previous
Next →
← 返回首页

提交意见反馈