@karminski3: DeepSeek真的是性价比和技术双重斩杀线... 有同学看不懂DSpark是啥, 简单给大家写个小教程讲讲. 推测性解码(投机解码)这个技术是用来提升大模型输出速度的. 本质是让小模型给大模型接话, 大模型判断小模型说的对不对. 因为现…
摘要
DeepSeek提出DSpark技术,通过在Final RMSNorm后插入微型Transformer实现推测性解码,将大模型输出速度提升60%-85%。
查看缓存全文
缓存时间: 2026/06/30 07:36
DeepSeek真的是性价比和技术双重斩杀线…
有同学看不懂DSpark是啥, 简单给大家写个小教程讲讲.
推测性解码(投机解码)这个技术是用来提升大模型输出速度的. 本质是让小模型给大模型接话, 大模型判断小模型说的对不对. 因为现在模型普遍卡内存带宽, 而GPU算力是富余的, 所以大模型的prefill速度(看字)比decode速度(吐字)快很多. 那么让小模型沿着大模型的思路先说一段话, 大模型判断对不对(只需要看字), 只要小模型猜对了, 那么这就利用了prefill速度, 吐字就会成倍的提升.
但问题来了, 外挂小模型也要看字(prefill), 也要占用显存, 也要吃显存带宽. 那么有没有更好的方法来解决呢? 来了, 这就是DSpark.
看我的这个图(左侧DSv4架构图是 @rasbt 大佬的), DSpark 接在了 Final RMSNorm 过程中. 不是接一个完整的小模型, 而是一个3 层的MTP(多Token预测)微型Transformer堆叠.
大模型算完前面60多层后, 刚把当前这句话的“高浓缩概念“(特征向量/隐藏状态)推到 Final RMSNorm 这个出口,还没来得及翻译成具体文字时,DSpark开始截胡:
首先是半自回归极速脑补 (MTP + Markov Head), DSpark自己有一丢丢参数, 然后它就瞬间并行猜5个字(特征向量), 然后再用自己内部的一个串行网络理顺逻辑. (注意啊,先并行然后串行消除并行导致的逻辑不连贯).
然后, 它会有一个置信度预测头, 预判自己猜的准不准, 比如5个字的后2不准就直接砍掉, 防止后续送回大模型浪费算力.
最后把留下的3个字塞回词表映射层, 把向量翻译为token. 到此为止DSpark工作就做完了.
然后就是大模型扫一遍DSpark输出的对不对(只用prefill,不decode), 一旦正确了, 就直接吐字, 这样之前模型一次只能吐一个字, 现在就能吐3个字了!
最后, 推测性解码是不会降智的, 速度能提升60%-85%! 之前是雇一个小模型帮忙写草稿, 现在则是直接脑子里植入芯片了.
目前SGLang已经有这个特性的PR了(29538), 而且DeepSeek刚在自己的HuggingFace主页发了一大堆小模型的DSpark魔改版. 大胆猜一波未来发布的模型会不会标配DSpark?
#dspark #deepseek #投机解码 #推测性解码
相似文章
@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark,一种新的投机解码方法,将吞吐量提升51%至400%!…
DeepSeek发布了DSpark,一种投机解码方法,可将V4 Flash和Pro的吞吐量提升51%至400%,同时还开源了DeepSpec代码库,用于训练和评估草稿模型。
@dzhulgakov:来自 @deepseek_ai 的 DSpark 巧妙融合了多种投机解码思路,将吞吐量提升 1.5 到 5 倍…
来自 DeepSeek AI 的 DSpark 集成了投机解码思路,在生产系统中实现 1.5 到 5 倍的吞吐量提升。本推文从基础开始讲解了 10 个关键思路。
@Michaelzsguo: 这是关于DeepSeek最新创新DSpark的最佳解读:可以把DSpark想象成:主模型快速构思句子,然后一个小型“编辑器”迅速修正连贯性...
DeepSeek发布了DSpark,该系统让主模型快速生成一个句子,同时一个小型编辑器在验证前修正连贯性,将大语言模型系统工程推向新架构之外。
@DeRonin_: DeepSeek 刚发布了一篇5页论文和免费GitHub仓库,能让任何LLM响应速度提升80%,这项技术叫推测性解码...
DeepSeek 发布了一篇论文以及采用MIT许可证的开源实现(DSpark),通过使用小型“猜测”模型和大型“检查”模型,将LLM响应速度提升高达80%,同时兼顾速度与准确率,无需权衡取舍。
deepseek-ai/DeepSeek-V4-Pro-DSpark
DeepSeek 发布了其 V4 系列的预览版本,包括 DeepSeek-V4-Pro(1.6T 参数,49B 激活)和 DeepSeek-V4-Flash(284B 参数,13B 激活),两者均支持百万 Token 上下文,并采用混合注意力、流形约束超连接和 Muon 优化器。