@dzhulgakov：来自 @deepseek_ai 的 DSpark 巧妙融合了多种投机解码思路，将吞吐量提升 1.5 到 5 倍…

X AI KOLs Following 2026/06/27 17:31 工具

摘要

来自 DeepSeek AI 的 DSpark 集成了投机解码思路，在生产系统中实现 1.5 到 5 倍的吞吐量提升。本推文从基础开始讲解了 10 个关键思路。

来自 @deepseek_ai 的 DSpark 巧妙融合了多种投机解码思路，在实际生产系统中实现了 1.5 到 5 倍的吞吐量提升让我们从最基础开始，通过 10 个思路来理解它 🧵 https://t.co/g7s3w40csZ

查看原文

查看缓存全文

缓存时间: 2026/06/27 18:00

DSpark 来自 @deepseek_ai 巧妙地融合了多种推测解码思想，在真实生产系统中实现了 1.5 至 5 倍的吞吐量提升

让我们从最基础出发，通过 10 个概念来理解它

LLM 解码中的批处理

生成 Token 受限于从内存读取权重的速度。因此，并行解码 10 个 Token 仅比生成 1 个略慢。持续批处理正是利用了这一洞察

推测解码

对于同一请求，Token N+1 依赖 Token N，因此无法并行解码。但如果我们能猜出这些 Token（“推测”），就能从主模型角度快速验证其前缀中有哪些是正确的

草稿模型

如何推测？当然是用模型。最简单的方法是运行一个在同一分布上训练的更小模型，例如使用 Qwen 0.8B 为 Qwen 397B 提供草稿

推测并非免费

time_per_token = (num_tokens_drafted * drafter_time + verify_time(num_tokens_drafted)) / num_tokens_accepted

推理器运行缓慢，或猜测率过低导致草稿生成过多，都会带来负面影响。需要找到恰当的平衡点

EAGLE 与 MTP

将推理器设计为主模型的一个额外 Transformer 层，即除了前一个 Token 外，它还消耗丰富的潜在表示（最后激活）。这样仅需 1-2 层而非完整模型即可实现

推理速度更快、准确度更高的推理器

DFlash

MTP 需要 N 步生成 N 个草稿 Token。DFlash 利用扩散思想在一次前向传播中生成所有 N 个 Token

推测速度大幅提升，但草稿质量有时优于 MTP/Eagle，有时则不如

DSpark ≈ Eagle + MTP

DFlash 在初始位置更强 Eagle3 在长草稿生成时更连贯，但初始猜测质量较低

DSpark 结合了并行块与自回归思想，超越了任意单一方法

更廉价的顺序块

Eagle3/MTP 在每个推理位置运行完整注意力。由于 DFlash 拥有并行块来捕获先前上下文，顺序步骤可以借助 RNN 甚至马尔可夫模型变得非常廉价。最终得到更快且依然准确的推理器！

可变长度草稿与硬件感知调度器

草稿 Token 数量应为多少？它随情况变化：

某些请求（例如编码）比其他请求更容易预测
最优长度取决于服务器负载（批大小）。低负载时（GPU 计算空闲）多推测，高吞吐时少推测

有些引擎使用静态的 --num-draft-tokens 参数。根据推理器的置信度和当前服务器负载动态调整要更好

实现起来有难度。推理引擎中 CPU/GPU 高度流水线化，改变长度通常需要改变张量尺寸并返回 CPU，从而拖慢速度

通过精心的实现（以及大量酷炫的 CUDA 内核），所有操作可在 GPU 上完成，无需额外开销

在线推理器校准

模型在预测下一个 Token 时倾向于过度自信，使得难以确定停止草稿生成的阈值

但我们可以观察运行时推理器的性能，并实时调整（“校准”）阈值

整合起来

DeepSeek 的魔力在于卓越的系统工程与紧密的模型协同设计。其中许多思想此前已被发表。令人印象深刻的是，他们将这些思想整合在一起，通过自适应系统实现了巨大的端到端改进

我们在 @FireworksAI_HQ 从事大量推测解码研究和自适应系统工程，包括为客户工作负载持续训练和校准推理器

期待构建 DSpark 的思想，并与世界分享更优质的推理服务

相似文章

@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark，一种新的投机解码方法，将吞吐量提升51%至400%！…

X AI KOLs Timeline

DeepSeek发布了DSpark，一种投机解码方法，可将V4 Flash和Pro的吞吐量提升51%至400%，同时还开源了DeepSpec代码库，用于训练和评估草稿模型。

@DeRonin_: DeepSeek 刚发布了一篇5页论文和免费GitHub仓库，能让任何LLM响应速度提升80%，这项技术叫推测性解码...

X AI KOLs Following

DeepSeek 发布了一篇论文以及采用MIT许可证的开源实现（DSpark），通过使用小型“猜测”模型和大型“检查”模型，将LLM响应速度提升高达80%，同时兼顾速度与准确率，无需权衡取舍。

@Michaelzsguo: 这是关于DeepSeek最新创新DSpark的最佳解读：可以把DSpark想象成：主模型快速构思句子，然后一个小型“编辑器”迅速修正连贯性...

X AI KOLs Timeline

DeepSeek发布了DSpark，该系统让主模型快速生成一个句子，同时一个小型编辑器在验证前修正连贯性，将大语言模型系统工程推向新架构之外。

@SuJinYan123：仅在DeepSeek开源Qwen DSpark权重6小时后，OpenInfer就已经在RTX 5…上支持DSpark运行

X AI KOLs Timeline

OpenInfer，一个纯粹的Rust+CUDA LLM推理引擎，快速添加了对DeepSeek的DSpark投机解码技术在RTX 5090上的支持，实现了每个用户近500 tok/s，并扩展至约2.4K聚合tok/s，在非随机工作负载上优于DFlash。

@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…

X AI KOLs Following

关于 DFlash 和 Spec V2 推测解码方法的新研究实现了 LLM 推理的 >4.3倍基准吞吐量，现已成为 SGLang 的默认推测解码引擎。

相似文章

@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark，一种新的投机解码方法，将吞吐量提升51%至400%！…

@DeRonin_: DeepSeek 刚发布了一篇5页论文和免费GitHub仓库，能让任何LLM响应速度提升80%，这项技术叫推测性解码...

@Michaelzsguo: 这是关于DeepSeek最新创新DSpark的最佳解读：可以把DSpark想象成：主模型快速构思句子，然后一个小型“编辑器”迅速修正连贯性...

@SuJinYan123：仅在DeepSeek开源Qwen DSpark权重6小时后，OpenInfer就已经在RTX 5…上支持DSpark运行

@lmsysorg: 新博客: 推测解码的下一代: DFlash 和 Spec V2。DFlash + Spec V2 实现 >4.3倍基准吞吐量…

提交意见反馈