@charles_irl: 周五,我们发布了六个用于加速推理的最新先进草稿模型。我们还发布了一篇关于为何……的博文
摘要
周五,我们发布了六个用于加速推理的最新先进草稿模型,同时发布了一篇关于推测解码的博文,以及一个用于估算加速比的山脊线模型工具。
查看缓存全文
缓存时间: 2026/06/22 05:32
上周五,我们发布了六款最先进的推测解码加速推理起草模型。
我们还发布了一篇博客文章,阐述推测解码为何如此出色。文中附带了基于推测的加速屋顶线模型。
欢迎在《LLM 工程师年鉴》中体验:
https://t.co/udJXMQWlIW https://t.co/Dk7ULxhp54
LLM 工程师年鉴 - 推测解码屋顶线模型(加速比)
来源:https://modal.com/llm-almanac/spec-dec-roofline LLM 工程师年鉴 (https://modal.com/llm-almanac/advisor)
γ*=16(最大),1.6倍加速
序列长度4,096 token/序列
5122k8k32k131k
接受概率75%
每Token相对成本10%
接受概率89%
每块相对成本10%
该建模系统采用屋顶线分析 (https://modal.com/gpu-glossary/perf/roofline-model) 来估算在不同硬件上运行不同模型时,不同草稿长度下推测解码带来的加速比。这只是一个模型!当开销 (https://modal.com/gpu-glossary/perf/roofline-model) 是延迟的主要贡献者时(例如小批量大小的小模型),该模型往往会低估收益。
此处的屋顶线模型灵感来自 Doubleword (https://doubleword.ai/) 的 Fergus Finn (https://github.com/fergusfinn) 的工作。具体实现参考了他的 DeepSeek-V4 Flash B200 最佳草稿长度估算器 (https://fergusfinn.com/blog/economics-of-speculative-decoding/)。
相似文章
@charles_irl:推测就是一切。在这篇博客中,我们宣布与Z Lab共同发布六款最新的DFla…
Modal和Z Lab发布了六款新的DFlash推测解码草稿模型,用于Qwen 3.x,在B200上实现了每秒超过1000个token,并认为推测解码是最有影响力的推理优化。
DeepSeek 开源推理优化,生成速度提升 60–85% [pdf]
DeepSeek 开源了 DeepSpec,这是一个用于训练和评估推测解码草稿模型的全栈代码库,可实现 60-85% 的生成速度提升。它包含数据准备、训练和评估脚本,支持多种草稿模型算法(DSpark、DFlash、Eagle3)。
@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…
关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量,现已成为 SGLang 的默认推测解码引擎。
@charles_irl: 去年秋天,我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起,我们一直在…
一篇博客文章详细介绍了对FlashAttention-4的贡献,通过调整并行策略和支持不规则内存访问,以提升其在大型语言模型推理中的性能,特别是针对解码密集型工作负载。
@charles_irl: 推测就是一切
Yong Quan 强调,更好的推测解码器可以在 LLM 推理中实现近乎线性的吞吐量提升,该观点由 Charles 在 Modal 研讨会上提出。