@charles_irl: 周五,我们发布了六个用于加速推理的最新先进草稿模型。我们还发布了一篇关于为何……的博文

X AI KOLs Following 模型

摘要

周五,我们发布了六个用于加速推理的最新先进草稿模型,同时发布了一篇关于推测解码的博文,以及一个用于估算加速比的山脊线模型工具。

周五,我们发布了六个用于加速推理的最新先进草稿模型。 我们还发布了一篇关于推测解码为何如此出色的博文。支撑该博文的是一个从推测中加速的山脊线模型。 在我们的 LLM Engineer's Almanac 中体验它: https://t.co/udJXMQWlIW https://t.co/Dk7ULxhp54
查看原文
查看缓存全文

缓存时间: 2026/06/22 05:32

上周五,我们发布了六款最先进的推测解码加速推理起草模型。

我们还发布了一篇博客文章,阐述推测解码为何如此出色。文中附带了基于推测的加速屋顶线模型。

欢迎在《LLM 工程师年鉴》中体验:

https://t.co/udJXMQWlIW https://t.co/Dk7ULxhp54


LLM 工程师年鉴 - 推测解码屋顶线模型(加速比)

来源:https://modal.com/llm-almanac/spec-dec-roofline LLM 工程师年鉴 (https://modal.com/llm-almanac/advisor)

γ*=16(最大),1.6倍加速

序列长度4,096 token/序列

5122k8k32k131k

接受概率75%

每Token相对成本10%

接受概率89%

每块相对成本10%

该建模系统采用屋顶线分析 (https://modal.com/gpu-glossary/perf/roofline-model) 来估算在不同硬件上运行不同模型时,不同草稿长度下推测解码带来的加速比。这只是一个模型!当开销 (https://modal.com/gpu-glossary/perf/roofline-model) 是延迟的主要贡献者时(例如小批量大小的小模型),该模型往往会低估收益。

此处的屋顶线模型灵感来自 Doubleword (https://doubleword.ai/) 的 Fergus Finn (https://github.com/fergusfinn) 的工作。具体实现参考了他的 DeepSeek-V4 Flash B200 最佳草稿长度估算器 (https://fergusfinn.com/blog/economics-of-speculative-decoding/)。

相似文章

@charles_irl: dflash 高速运转

X AI KOLs Timeline

NVIDIA 宣布推出 DFlash,一种用于推测解码的开源块扩散模型,在 Blackwell GPU 上可实现高达 15 倍的推理吞吐量提升,同时保持交互性。