multi-token-prediction

标签

Cards List
#multi-token-prediction

运行MTP模型的llama.cpp Docker镜像

Reddit r/LocalLLaMA · 2026-05-13

提供用于通过 llama.cpp 运行 MTP 模型的 Docker 镜像,包括量化比较和使用说明。

0 人收藏 0 人点赞
#multi-token-prediction

MTP+GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 - llama.cpp

Reddit r/LocalLLaMA · 2026-05-12

一位用户在 llama.cpp 上使用 GGML_CUDA_ENABLE_UNIFIED_MEMORY=1 标志对令牌生成速度进行基准测试,比较启用和未启用 MTP(多令牌预测)时的性能。结果显示,在 RTX5090 上使用 Qwen3.6-27B 模型时,启用 MTP 后速度从 49 tok/s 显著提升至 64 tok/s。

0 人收藏 0 人点赞
#multi-token-prediction

Gemma 4 MTP 与 DFlash 在单张 H100 上:密集模型 vs MoE 模型结果

Reddit r/LocalLLaMA · 2026-05-12

该基准测试将 Gemma 4 的多 Token 预测 (MTP) 与 z-lab 的 DFlash 推测性解码方法在单张 H100 GPU 上进行了比较,结果显示 MTP 在密集模型上更快,而 DFlash 在 MoE 模型上更快。

0 人收藏 0 人点赞
#multi-token-prediction

Unsloth 上的 MTP

Reddit r/LocalLLaMA · 2026-05-11

Unsloth 发布了支持多 Token 预测 (MTP) 的 Qwen3.6 模型 GGUF 量化版本。

0 人收藏 0 人点赞
#multi-token-prediction

unsloth/Qwen3.6-35B-A3B-MTP-GGUF

Hugging Face Models Trending · 2026-05-11 缓存

本文宣布在 Hugging Face 上发布 Qwen3.6-35B-A3B 模型权重,该模型由 Unsloth 进行优化,并采用多令牌预测(MTP)技术,以通过 llama.cpp 实现更快的生成速度。文章重点介绍了其在智能体编码能力、工具调用以及推理上下文保留方面的改进。

0 人收藏 0 人点赞
#multi-token-prediction

@ivanfioravanti: llamacpp 即将支持 MTP!

X AI KOLs Following · 2026-05-08 缓存

llamacpp 即将支持多令牌预测(MTP),提升推理效率。

0 人收藏 0 人点赞
#multi-token-prediction

LLaMA.cpp的多令牌预测(MTP)——Gemma 4速度提升40%

Reddit r/LocalLLaMA · 2026-05-08

llama.cpp中新的多令牌预测(MTP)实现为Gemma 4模型带来了40%的速度提升,已在MacBook Pro M5Max上测试。文章提供了量化GGUF模型和补丁源代码的链接。

0 人收藏 0 人点赞
#multi-token-prediction

@googlegemma: Gemma 4 在手机上速度提升 3 倍!看看推测解码带来的不同!Multi-Token Predi…

X AI KOLs Timeline · 2026-05-07 缓存

Google 的 Gemma 4 通过推测解码和多 Token 预测,推理速度提升高达 3 倍,可实现高效的设备端部署。

0 人收藏 0 人点赞
#multi-token-prediction

havenoammo/Qwen3.6-27B-MTP-UD-GGUF

Hugging Face Models Trending · 2026-05-06 缓存

该 Hugging Face 仓库提供了 Qwen3.6-27B 的 GGUF 文件,这些文件在 Unsloth UD XL 量化版本的基础上嫁接了多 Token 预测 (MTP) 层。它还包含了构建支持 MTP 的 llama.cpp 的说明,以实现投机解码。

0 人收藏 0 人点赞
#multi-token-prediction

google/gemma-4-26B-A4B-it-assistant

Hugging Face Models Trending · 2026-04-23 缓存

Google DeepMind 发布了 Gemma 4 MTP 草稿模型(drafter),适用于 Gemma 4 系列模型,通过推测解码(speculative decoding)实现显著的解码加速,同时保持完全一致的生成质量,适用于低延迟应用场景。

0 人收藏 0 人点赞
#multi-token-prediction

google/gemma-4-31B-it-assistant

Hugging Face Models Trending · 2026-04-23 缓存

Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈