标签
一名用户分享了一份配置方案,该方案在使用 llama.cpp 和多令牌预测(MTP)的情况下,能在 12GB 显存的 GPU 上让 Qwen3.6 35B A3B 模型实现超过每秒 80 个令牌的生成速度。帖子中包含了基准测试结果以及用于优化性能的具体命令行参数。
一项基准测试显示,使用 vLLM 搭配 DFlash 投机解码,在单块 RTX 5090 上将 Gemma 4 26B 的推理速度提升至约 578 tokens/s,相比基线实现了 2.56 倍的加速。
本文介绍了用于字节级语言模型的BLT扩散(BLT Diffusion)和投机解码技术,在保持生成质量的同时,显著降低了生成延迟和内存带宽成本。
Google 的 Gemma 4 通过推测解码和多 Token 预测,推理速度提升高达 3 倍,可实现高效的设备端部署。
Google 发布了用于 Gemma 4 的多 token 预测草稿器,通过推测性解码加速推理,但目前对 MLX 的支持尚未确认或不可用。
该 Hugging Face 仓库提供了 Qwen3.6-27B 的 GGUF 文件,这些文件在 Unsloth UD XL 量化版本的基础上嫁接了多 Token 预测 (MTP) 层。它还包含了构建支持 MTP 的 llama.cpp 的说明,以实现投机解码。
Z-lab 发布了 DFlash,这是一种用于 Gemma-4-31B-it 的投机解码草稿模型,采用轻量级块扩散并行生成多个 token,相较于自回归基线实现了最高 5.8 倍的加速。
Google DeepMind 发布了 Gemma 4 MTP 草稿模型(drafter),适用于 Gemma 4 系列模型,通过推测解码(speculative decoding)实现显著的解码加速,同时保持完全一致的生成质量,适用于低延迟应用场景。
Google DeepMind 发布了 Gemma 4,这是一个开源权重的多模态模型家族,支持文本、图像、视频和音频,具备增强的推理和编码能力,并通过多令牌预测(MTP)实现高达 2 倍的解码速度提升。
Google DeepMind 发布了 Gemma 4 E4B 指令微调助手模型,该模型具备多模态能力、推理改进以及针对低延迟端侧应用优化的投机解码功能。
本文介绍 Qwen3.6-27B-DFlash,这是专为 DFlash 设计的草稿模型。DFlash 是一种新型推测解码方法,利用块扩散技术加速推理速度。文章提供了 vLLM 和 SGLang 的安装说明,以便与目标模型 Qwen3.6-27B 实现并行草稿生成。
Reddit 用户展示了 llamacpp 的投机解码功能将 Qwen-3.6-27B 的生成速度从 13.6 提升至 136.75 t/s,并分享了完整的命令参数和硬件配置。
本文首次系统评估了 Apple~Silicon 上波兰语大语言模型的跨模型族系推测解码技术,通过在 MLX-LM 中扩展 UAG 实现跨分词器解码。研究发现,上下文感知的词元翻译能够提升接受率,但统一内存的带宽限制阻碍了理论加速比的摊销,在结构化文本场景下最佳吞吐量增益达 1.7 倍。
ConFu引入了一个新颖的推测解码框架,使草稿模型能够通过思考令牌和软提示预期未来的生成方向,在多个LLM模型上相比EAGLE-3实现了8-20%的令牌接受率和生成速度提升。
本文提出了序列蒙特卡洛推测解码(SMC-SD),一种通过用草稿粒子群的重要性加权重采样替代推测解码中的令牌级拒绝来加速LLM推理的方法,在保持3%精度损失的前提下相比标准推测解码实现2.36倍加速,相比自回归解码实现5.2倍加速。
FlashDrive 将推理视觉-语言-动作模型在 RTX PRO 6000 上的延迟从 716 ms 降至 159 ms,最高加速 5.7 倍,零精度损失,让实时自主应用成为可能。
[https://github.com/ggml-org/llama.cpp/pull/19493](https://github.com/ggml-org/llama.cpp/pull/19493) 部分提示词能加速,部分则不能(草稿接受率低的情况)。有效的工作参数取决于任务类型和重复模式。对于编码任务,我使用以下参数获得了约 0%~50% 的加速:--spec-type ngram-mod --spec-ngram-size-n 24 --draft-min 48 --draft-max 64
SDVG 将投机解码引入自回归视频扩散,通过图像质量路由器在 MovieGenVideoBench 上实现最高 2.09× 加速,同时保留 95.7% 质量。
z-lab 发布 DFlash,一种基于轻量级块扩散模型的投机解码草稿器,可并行生成 15–16 个 token,为 Qwen3.6-35B-A3B 推理带来最高 2.9× 加速。
DFlash 是一种新的投机解码框架,它使用轻量级的块扩散模型进行并行标记起草,与自回归方法相比,实现了超过 6 倍的加速。在保持高输出质量的同时,其性能显著优于现有的最先进方法(如 EAGLE-3)。