multi-token-prediction

标签

#multi-token-prediction

运行MTP模型的llama.cpp Docker镜像

Reddit r/LocalLLaMA ↗ · 2026-05-13

提供用于通过 llama.cpp 运行 MTP 模型的 Docker 镜像，包括量化比较和使用说明。

0 人收藏 0 人点赞

#multi-token-prediction

MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp

Reddit r/LocalLLaMA ↗ · 2026-05-12

一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试，比较启用和未启用 MTP（多令牌预测）时的性能。结果显示，在 RTX5090 上使用 Qwen3.6-27B 模型时，启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。

0 人收藏 0 人点赞

#multi-token-prediction

Gemma 4 MTP 与 DFlash 在单张 H100 上：密集模型 vs MoE 模型结果

Reddit r/LocalLLaMA ↗ · 2026-05-12

该基准测试将 Gemma 4 的多 Token 预测 (MTP) 与 z-lab 的 DFlash 推测性解码方法在单张 H100 GPU 上进行了比较，结果显示 MTP 在密集模型上更快，而 DFlash 在 MoE 模型上更快。

0 人收藏 0 人点赞

#multi-token-prediction

Unsloth 上的 MTP

Reddit r/LocalLLaMA ↗ · 2026-05-11

Unsloth 发布了支持多 Token 预测 (MTP) 的 Qwen3.6 模型 GGUF 量化版本。

0 人收藏 0 人点赞

#multi-token-prediction

unsloth/Qwen3.6-35B-A3B-MTP-GGUF

Hugging Face Models Trending ↗ · 2026-05-11 缓存

本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重，该模型由 Unsloth 进行优化，并采用多令牌预测（MTP）技术，以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。

0 人收藏 0 人点赞

#multi-token-prediction

@ivanfioravanti: llamacpp 即将支持 MTP！

X AI KOLs Following ↗ · 2026-05-08 缓存

llamacpp 即将支持多令牌预测（MTP），提升推理效率。

0 人收藏 0 人点赞

#multi-token-prediction

LLaMA.cpp的多令牌预测（MTP）——Gemma 4速度提升40%

Reddit r/LocalLLaMA ↗ · 2026-05-08

llama.cpp中新的多令牌预测（MTP）实现为Gemma 4模型带来了40%的速度提升，已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。

0 人收藏 0 人点赞

#multi-token-prediction

@googlegemma: Gemma 4 在手机上速度提升 3 倍！看看推测解码带来的不同！Multi-Token Predi…

X AI KOLs Timeline ↗ · 2026-05-07 缓存

Google 的 Gemma 4 通过推测解码和多 Token 预测，推理速度提升高达 3 倍，可实现高效的设备端部署。

0 人收藏 0 人点赞

#multi-token-prediction

havenoammo/Qwen3.6-27B-MTP-UD-GGUF

Hugging Face Models Trending ↗ · 2026-05-06 缓存

该 Hugging Face 仓库提供了 Qwen3.6-27B 的 GGUF 文件，这些文件在 Unsloth UD XL 量化版本的基础上嫁接了多 Token 预测 (MTP) 层。它还包含了构建支持 MTP 的 llama.cpp 的说明，以实现投机解码。

0 人收藏 0 人点赞

#multi-token-prediction

google/gemma-4-26B-A4B-it-assistant

Hugging Face Models Trending ↗ · 2026-04-23 缓存

Google DeepMind 发布了 Gemma 4 MTP 草稿模型（drafter），适用于 Gemma 4 系列模型，通过推测解码（speculative decoding）实现显著的解码加速，同时保持完全一致的生成质量，适用于低延迟应用场景。

0 人收藏 0 人点赞

#multi-token-prediction

google/gemma-4-31B-it-assistant

Hugging Face Models Trending ↗ · 2026-04-23 缓存

Google DeepMind 发布了 Gemma 4，这是一个开源权重的多模态模型家族，支持文本、图像、视频和音频，具备增强的推理和编码能力，并通过多令牌预测（MTP）实现高达 2 倍的解码速度提升。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈