@dzhulgakov:来自 @deepseek_ai 的 DSpark 巧妙融合了多种投机解码思路,将吞吐量提升 1.5 到 5 倍…
摘要
来自 DeepSeek AI 的 DSpark 集成了投机解码思路,在生产系统中实现 1.5 到 5 倍的吞吐量提升。本推文从基础开始讲解了 10 个关键思路。
查看缓存全文
缓存时间: 2026/06/27 18:00
DSpark 来自 @deepseek_ai 巧妙地融合了多种推测解码思想,在真实生产系统中实现了 1.5 至 5 倍的吞吐量提升
让我们从最基础出发,通过 10 个概念来理解它
- LLM 解码中的批处理
生成 Token 受限于从内存读取权重的速度。因此,并行解码 10 个 Token 仅比生成 1 个略慢。持续批处理正是利用了这一洞察
- 推测解码
对于同一请求,Token N+1 依赖 Token N,因此无法并行解码。但如果我们能猜出这些 Token(“推测”),就能从主模型角度快速验证其前缀中有哪些是正确的
- 草稿模型
如何推测?当然是用模型。最简单的方法是运行一个在同一分布上训练的更小模型,例如使用 Qwen 0.8B 为 Qwen 397B 提供草稿
- 推测并非免费
time_per_token = (num_tokens_drafted * drafter_time + verify_time(num_tokens_drafted)) / num_tokens_accepted
推理器运行缓慢,或猜测率过低导致草稿生成过多,都会带来负面影响。需要找到恰当的平衡点
- EAGLE 与 MTP
将推理器设计为主模型的一个额外 Transformer 层,即除了前一个 Token 外,它还消耗丰富的潜在表示(最后激活)。这样仅需 1-2 层而非完整模型即可实现
推理速度更快、准确度更高的推理器
- DFlash
MTP 需要 N 步生成 N 个草稿 Token。DFlash 利用扩散思想在一次前向传播中生成所有 N 个 Token
推测速度大幅提升,但草稿质量有时优于 MTP/Eagle,有时则不如
- DSpark ≈ Eagle + MTP
DFlash 在初始位置更强 Eagle3 在长草稿生成时更连贯,但初始猜测质量较低
DSpark 结合了并行块与自回归思想,超越了任意单一方法
- 更廉价的顺序块
Eagle3/MTP 在每个推理位置运行完整注意力。由于 DFlash 拥有并行块来捕获先前上下文,顺序步骤可以借助 RNN 甚至马尔可夫模型变得非常廉价。最终得到更快且依然准确的推理器!
- 可变长度草稿与硬件感知调度器
草稿 Token 数量应为多少?它随情况变化:
- 某些请求(例如编码)比其他请求更容易预测
- 最优长度取决于服务器负载(批大小)。低负载时(GPU 计算空闲)多推测,高吞吐时少推测
有些引擎使用静态的 --num-draft-tokens 参数。根据推理器的置信度和当前服务器负载动态调整要更好
实现起来有难度。推理引擎中 CPU/GPU 高度流水线化,改变长度通常需要改变张量尺寸并返回 CPU,从而拖慢速度
通过精心的实现(以及大量酷炫的 CUDA 内核),所有操作可在 GPU 上完成,无需额外开销
- 在线推理器校准
模型在预测下一个 Token 时倾向于过度自信,使得难以确定停止草稿生成的阈值
但我们可以观察运行时推理器的性能,并实时调整(“校准”)阈值
整合起来
DeepSeek 的魔力在于卓越的系统工程与紧密的模型协同设计。其中许多思想此前已被发表。令人印象深刻的是,他们将这些思想整合在一起,通过自适应系统实现了巨大的端到端改进
我们在 @FireworksAI_HQ 从事大量推测解码研究和自适应系统工程,包括为客户工作负载持续训练和校准推理器
期待构建 DSpark 的思想,并与世界分享更优质的推理服务
相似文章
@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark,一种新的投机解码方法,将吞吐量提升51%至400%!…
DeepSeek发布了DSpark,一种投机解码方法,可将V4 Flash和Pro的吞吐量提升51%至400%,同时还开源了DeepSpec代码库,用于训练和评估草稿模型。
@DeRonin_: DeepSeek 刚发布了一篇5页论文和免费GitHub仓库,能让任何LLM响应速度提升80%,这项技术叫推测性解码...
DeepSeek 发布了一篇论文以及采用MIT许可证的开源实现(DSpark),通过使用小型“猜测”模型和大型“检查”模型,将LLM响应速度提升高达80%,同时兼顾速度与准确率,无需权衡取舍。
@Michaelzsguo: 这是关于DeepSeek最新创新DSpark的最佳解读:可以把DSpark想象成:主模型快速构思句子,然后一个小型“编辑器”迅速修正连贯性...
DeepSeek发布了DSpark,该系统让主模型快速生成一个句子,同时一个小型编辑器在验证前修正连贯性,将大语言模型系统工程推向新架构之外。
@SuJinYan123:仅在DeepSeek开源Qwen DSpark权重6小时后,OpenInfer就已经在RTX 5…上支持DSpark运行
OpenInfer,一个纯粹的Rust+CUDA LLM推理引擎,快速添加了对DeepSeek的DSpark投机解码技术在RTX 5090上的支持,实现了每个用户近500 tok/s,并扩展至约2.4K聚合tok/s,在非随机工作负载上优于DFlash。
@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…
关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量,现已成为 SGLang 的默认推测解码引擎。