@charles_irl: 周五，我们发布了六个用于加速推理的最新先进草稿模型。我们还发布了一篇关于为何……的博文

X AI KOLs Following 2026/06/22 01:32 模型

speculative-decoding inference-acceleration llm drafters roofline-model modal

摘要

周五，我们发布了六个用于加速推理的最新先进草稿模型，同时发布了一篇关于推测解码的博文，以及一个用于估算加速比的山脊线模型工具。

周五，我们发布了六个用于加速推理的最新先进草稿模型。我们还发布了一篇关于推测解码为何如此出色的博文。支撑该博文的是一个从推测中加速的山脊线模型。在我们的 LLM Engineer's Almanac 中体验它： https://t.co/udJXMQWlIW https://t.co/Dk7ULxhp54

查看原文

查看缓存全文

缓存时间: 2026/06/22 05:32

上周五，我们发布了六款最先进的推测解码加速推理起草模型。

我们还发布了一篇博客文章，阐述推测解码为何如此出色。文中附带了基于推测的加速屋顶线模型。

欢迎在《LLM 工程师年鉴》中体验：

https://t.co/udJXMQWlIW https://t.co/Dk7ULxhp54

LLM 工程师年鉴 - 推测解码屋顶线模型（加速比）

来源：https://modal.com/llm-almanac/spec-dec-roofline LLM 工程师年鉴 (https://modal.com/llm-almanac/advisor)

γ*=16（最大），1.6倍加速

序列长度4,096 token/序列

5122k8k32k131k

接受概率75%

每Token相对成本10%

接受概率89%

每块相对成本10%

该建模系统采用屋顶线分析 (https://modal.com/gpu-glossary/perf/roofline-model) 来估算在不同硬件上运行不同模型时，不同草稿长度下推测解码带来的加速比。这只是一个模型！当开销 (https://modal.com/gpu-glossary/perf/roofline-model) 是延迟的主要贡献者时（例如小批量大小的小模型），该模型往往会低估收益。

此处的屋顶线模型灵感来自 Doubleword (https://doubleword.ai/) 的 Fergus Finn (https://github.com/fergusfinn) 的工作。具体实现参考了他的 DeepSeek-V4 Flash B200 最佳草稿长度估算器 (https://fergusfinn.com/blog/economics-of-speculative-decoding/)。

@charles_irl: 周五，我们发布了六个用于加速推理的最新先进草稿模型。我们还发布了一篇关于为何……的博文

LLM 工程师年鉴 - 推测解码屋顶线模型（加速比）

相似文章

@charles_irl：推测就是一切。在这篇博客中，我们宣布与Z Lab共同发布六款最新的DFla…

@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…

@charles_irl: 去年秋天，我们分享了关于FA4内部机制的深度分析。但我们并未止步于理解内核。自那时起，我们一直在…

@charles_irl: dflash 高速运转

JetFlow：通过并行树草稿打破推测解码的缩放天花板

提交意见反馈