mtp

标签

Cards List
#mtp

TurboQuant+MTP在ROCm(Llama CPP)上的实现

Reddit r/LocalLLaMA · 昨天

一位开发者成功在llama.cpp中让TurboQuant TBQ4 KV缓存和多Token预测在AMD ROCm上针对RDNA3 GPU运行,实现在24GB显存上支持64k上下文,并具有有竞争力的token速率。

0 人收藏 0 人点赞
#mtp

@berryxia: 我靠,肉眼都跟不上这个速度了! Daniel Han,UnslothAI创始人,YC S24,之前在NVIDIA做ML,刚刚把Qwen3.6的实验MTP GGUF放出来了。 27B模型单GPU直接跑到140 tokens/s。 35B-A…

X AI KOLs Timeline · 2天前

UnslothAI创始人Daniel Han发布了Qwen3.6的实验性MTP GGUF版本,在消费级GPU上实现27B模型140 tokens/s、35B-A3B版本220 tokens/s,速度提升1.4倍且精度零损失。

0 人收藏 0 人点赞
#mtp

MTP 基准测试结果:生成任务的性质决定了你是会受益于推测性推理(如编程)还是导致推理变慢(如创意写作)。没有其他因素接近其影响力。

Reddit r/LocalLLaMA · 5天前

对 Qwen 3.6 27B 基准的系统性分析揭示,推测性推理(MTP)显著加速了编程任务,但会减慢创意写作速度,任务类型的影响远超量化或温度设置。

0 人收藏 0 人点赞
#mtp

在 12GB 显存下,使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Reddit r/LocalLLaMA · 6天前

一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

0 人收藏 0 人点赞
#mtp

MTP 关键在于接受率

Reddit r/LocalLLaMA · 2026-05-08

一位用户在 M4 Max Studio 上使用 mlx-vlm 对 Gemma 4 进行了 MTP(多令牌预测)基准测试,发现它在代码生成方面表现出色(速度快 1.53 倍,接受率 66%),但对 JSON 输出不利(速度慢 50%,接受率仅 8%),对长篇散文则影响中性,表明当令牌接受率低于 50% 时,MTP 的优势便荡然无存。

1 人收藏 1 人点赞
#mtp

成功运行 MTP + TurboQuant — Qwen3.6-27B 在单 RTX 4090 上实现 262K 上下文 80+ token/秒

Reddit r/LocalLLaMA · 2026-05-08

开发者通过将 MTP(多 Token 预测)与 TurboQuant 的无损 KV缓存压缩技术相结合,在单张 RTX 4090 上实现了 Qwen3.6-27B 模型在 262K 上下文下 80+ token/秒的推理速度,并分享了实现分支和技术细节。

1 人收藏 1 人点赞
#mtp

@ivanfioravanti: llamacpp 即将支持 MTP!

X AI KOLs Following · 2026-05-08 缓存

llamacpp 即将支持多令牌预测(MTP),提升推理效率。

0 人收藏 0 人点赞
#mtp

提取的MTP张量GGUF文件——用于嫁接的较小捐赠模型。

Reddit r/LocalLLaMA · 2026-05-07

作者提供了仅包含Qwen3.6模型MTP张量的提取GGUF文件,用户可通过显著小于完整模型文件的下载大小来嫁接张量。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈