@charles_irl: 周五,我们发布了六个用于加速推理的最新先进草稿模型。我们还发布了一篇关于为何……的博文
摘要
周五,我们发布了六个用于加速推理的最新先进草稿模型,同时发布了一篇关于推测解码的博文,以及一个用于估算加速比的山脊线模型工具。
查看缓存全文
缓存时间: 2026/06/22 05:32
上周五,我们发布了六款最先进的推测解码加速推理起草模型。
我们还发布了一篇博客文章,阐述推测解码为何如此出色。文中附带了基于推测的加速屋顶线模型。
欢迎在《LLM 工程师年鉴》中体验:
https://t.co/udJXMQWlIW https://t.co/Dk7ULxhp54
LLM 工程师年鉴 - 推测解码屋顶线模型(加速比)
来源:https://modal.com/llm-almanac/spec-dec-roofline LLM 工程师年鉴 (https://modal.com/llm-almanac/advisor)
γ*=16(最大),1.6倍加速
序列长度4,096 token/序列
5122k8k32k131k
接受概率75%
每Token相对成本10%
接受概率89%
每块相对成本10%
该建模系统采用屋顶线分析 (https://modal.com/gpu-glossary/perf/roofline-model) 来估算在不同硬件上运行不同模型时,不同草稿长度下推测解码带来的加速比。这只是一个模型!当开销 (https://modal.com/gpu-glossary/perf/roofline-model) 是延迟的主要贡献者时(例如小批量大小的小模型),该模型往往会低估收益。
此处的屋顶线模型灵感来自 Doubleword (https://doubleword.ai/) 的 Fergus Finn (https://github.com/fergusfinn) 的工作。具体实现参考了他的 DeepSeek-V4 Flash B200 最佳草稿长度估算器 (https://fergusfinn.com/blog/economics-of-speculative-decoding/)。
相似文章
@charles_irl:推测就是一切。在这篇博客中,我们宣布与Z Lab共同发布六款最新的DFla…
Modal和Z Lab发布了六款新的DFlash推测解码草稿模型,用于Qwen 3.x,在B200上实现了每秒超过1000个token,并认为推测解码是最有影响力的推理优化。
@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…
关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量,现已成为 SGLang 的默认推测解码引擎。
@charles_irl: 去年秋天,我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起,我们一直在…
一篇博客文章详细介绍了对FlashAttention-4的贡献,通过调整并行策略和支持不规则内存访问,以提升其在大型语言模型推理中的性能,特别是针对解码密集型工作负载。
@charles_irl: dflash 高速运转
NVIDIA 宣布推出 DFlash,一种用于推测解码的开源块扩散模型,在 Blackwell GPU 上可实现高达 15 倍的推理吞吐量提升,同时保持交互性。
JetFlow:通过并行树草稿打破推测解码的缩放天花板
JetFlow是一个推测解码框架,通过结合单次前向草稿效率与分支级因果条件,打破了缩放天花板,在数学基准上实现了高达9.64倍的加速,并在密集型和MoE Qwen3模型上优于先前方法。