speculative-decoding

#speculative-decoding

在 12GB 显存下，使用 Qwen3.6 35B A3B 与 llama.cpp MTP 实现 80 tok/sec 的速度和 128K 上下文

Reddit r/LocalLLaMA ↗ · 4天前

一名用户分享了一份配置方案，该方案在使用 llama.cpp 和多令牌预测（MTP）的情况下，能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。

0 人收藏 0 人点赞

#speculative-decoding

Gemma 4 26B 在单块 RTX 5090 上达到 600 Tok/s

Reddit r/LocalLLaMA ↗ · 5天前

一项基准测试显示，使用 vLLM 搭配 DFlash 投机解码，在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s，相比基线实现了 2.56 倍的加速。

0 人收藏 0 人点赞

#speculative-decoding

快速字节潜在Transformer

Hugging Face Daily Papers ↗ · 5天前缓存

本文介绍了用于字节级语言模型的BLT扩散（BLT Diffusion）和投机解码技术，在保持生成质量的同时，显著降低了生成延迟和内存带宽成本。

0 人收藏 0 人点赞

#speculative-decoding

@googlegemma: Gemma 4 在手机上速度提升 3 倍！看看推测解码带来的不同！Multi-Token Predi…

X AI KOLs Timeline ↗ · 6天前缓存

Google 的 Gemma 4 通过推测解码和多 Token 预测，推理速度提升高达 3 倍，可实现高效的设备端部署。

0 人收藏 0 人点赞

#speculative-decoding

MLX 上新的 Gemma 4 MTP？

Reddit r/LocalLLaMA ↗ · 6天前

Google 发布了用于 Gemma 4 的多 token 预测草稿器，通过推测性解码加速推理，但目前对 MLX 的支持尚未确认或不可用。

0 人收藏 0 人点赞

#speculative-decoding

havenoammo/Qwen3.6-27B-MTP-UD-GGUF

Hugging Face Models Trending ↗ · 2026-05-06 缓存

该 Hugging Face 仓库提供了 Qwen3.6-27B 的 GGUF 文件，这些文件在 Unsloth UD XL 量化版本的基础上嫁接了多 Token 预测 (MTP) 层。它还包含了构建支持 MTP 的 llama.cpp 的说明，以实现投机解码。

0 人收藏 0 人点赞

#speculative-decoding

z-lab/gemma-4-31B-it-DFlash

Hugging Face Models Trending ↗ · 2026-04-30 缓存

Z-lab 发布了 DFlash，这是一种用于 Gemma-4-31B-it 的投机解码草稿模型，采用轻量级块扩散并行生成多个 token，相较于自回归基线实现了最高 5.8 倍的加速。

0 人收藏 0 人点赞

#speculative-decoding

google/gemma-4-26B-A4B-it-assistant

Hugging Face Models Trending ↗ · 2026-04-23 缓存

Google DeepMind 发布了 Gemma 4 MTP 草稿模型（drafter），适用于 Gemma 4 系列模型，通过推测解码（speculative decoding）实现显著的解码加速，同时保持完全一致的生成质量，适用于低延迟应用场景。

0 人收藏 0 人点赞

#speculative-decoding

google/gemma-4-31B-it-assistant

Hugging Face Models Trending ↗ · 2026-04-23 缓存

Google DeepMind 发布了 Gemma 4，这是一个开源权重的多模态模型家族，支持文本、图像、视频和音频，具备增强的推理和编码能力，并通过多令牌预测（MTP）实现高达 2 倍的解码速度提升。

0 人收藏 0 人点赞

#speculative-decoding

google/gemma-4-E4B-it-assistant

Hugging Face Models Trending ↗ · 2026-04-23 缓存

Google DeepMind 发布了 Gemma 4 E4B 指令微调助手模型，该模型具备多模态能力、推理改进以及针对低延迟端侧应用优化的投机解码功能。

0 人收藏 0 人点赞

#speculative-decoding

z-lab/Qwen3.6-27B-DFlash

Hugging Face Models Trending ↗ · 2026-04-23 缓存

本文介绍 Qwen3.6-27B-DFlash，这是专为 DFlash 设计的草稿模型。DFlash 是一种新型推测解码方法，利用块扩散技术加速推理速度。文章提供了 vLLM 和 SGLang 的安装说明，以便与目标模型 Qwen3.6-27B 实现并行草稿生成。

0 人收藏 0 人点赞

#speculative-decoding

Qwen-3.6-27B + llamacpp 投机解码效果惊艳

Reddit r/LocalLLaMA ↗ · 2026-04-23

Reddit 用户展示了 llamacpp 的投机解码功能将 Qwen-3.6-27B 的生成速度从 13.6 提升至 136.75 t/s，并分享了完整的命令参数和硬件配置。

0 人收藏 0 人点赞

#speculative-decoding

Apple~Silicon 平台上的波兰语模型跨模型族系推测解码：基于扩展 UAG 的 MLX-LM 对 Bielik~11B 的经验评估

arXiv cs.CL ↗ · 2026-04-21

本文首次系统评估了 Apple~Silicon 上波兰语大语言模型的跨模型族系推测解码技术，通过在 MLX-LM 中扩展 UAG 实现跨分词器解码。研究发现，上下文感知的词元翻译能够提升接受率，但统一内存的带宽限制阻碍了理论加速比的摊销，在结构化文本场景下最佳吞吐量增益达 1.7 倍。

0 人收藏 0 人点赞

#speculative-decoding

ConFu：通过未来思考实现更好的推测采样

arXiv cs.CL ↗ · 2026-04-20 缓存

ConFu引入了一个新颖的推测解码框架，使草稿模型能够通过思考令牌和软提示预期未来的生成方向，在多个LLM模型上相比EAGLE-3实现了8-20%的令牌接受率和生成速度提升。

0 人收藏 0 人点赞

#speculative-decoding

通过序列蒙特卡洛加速LLM推理

arXiv cs.CL ↗ · 2026-04-20 缓存

本文提出了序列蒙特卡洛推测解码（SMC-SD），一种通过用草稿粒子群的重要性加权重采样替代推测解码中的令牌级拒绝来加速LLM推理的方法，在保持3%精度损失的前提下相比标准推测解码实现2.36倍加速，相比自回归解码实现5.2倍加速。

0 人收藏 0 人点赞

#speculative-decoding

@zhijianliu_: 推理 VLA 会思考，只是不够快——直到现在。推出 FlashDrive：RTX PRO 6000 上 716 ms → 159 ms……

X AI KOLs Timeline ↗ · 2026-04-19 缓存

FlashDrive 将推理视觉-语言-动作模型在 RTX PRO 6000 上的延迟从 716 ms 降至 159 ms，最高加速 5.7 倍，零精度损失，让实时自主应用成为可能。

0 人收藏 0 人点赞

#speculative-decoding

llama.cpp speculative checkpointing 已合并

Reddit r/LocalLLaMA ↗ · 2026-04-19

[https://github.com/ggml-org/llama.cpp/pull/19493](https://github.com/ggml-org/llama.cpp/pull/19493) 部分提示词能加速，部分则不能（草稿接受率低的情况）。有效的工作参数取决于任务类型和重复模式。对于编码任务，我使用以下参数获得了约 0%~50% 的加速：--spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 48 --draft-max 64

0 人收藏 0 人点赞

#speculative-decoding