@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark,一种新的投机解码方法,将吞吐量提升51%至400%!…
摘要
DeepSeek发布了DSpark,一种投机解码方法,可将V4 Flash和Pro的吞吐量提升51%至400%,同时还开源了DeepSpec代码库,用于训练和评估草稿模型。
查看缓存全文
缓存时间: 2026/06/27 07:51
DeepSeek 刚刚为 V4 Flash & Pro 发布了 DSpark,一种新的投机解码方法,将吞吐量提升 51% 到 400%!DS 还展示了 DSpark 在其他模型(如 Gemma 和 Qwen)上同样表现良好。
GitHub: https://github.com/deepseek-ai/DeepSpec…
论文: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf…
Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark…
deepseek-ai/DeepSpec
来源:https://github.com/deepseek-ai/DeepSpec
DeepSpec
DeepSpec 是一个用于训练和评估投机解码草稿模型的全栈代码库。它包含数据准备工具、草稿模型实现、训练代码和评估脚本。
环境配置
安装 Python 依赖项:
python -m pip install -r requirements.txt
数据准备还额外需要一个推理引擎来服务目标模型(当重新生成答案时);详见 scripts/data/README.md。
工作流程
按顺序运行各个阶段——每个阶段的输出作为下一阶段的输入:
- 数据准备——下载提示词、重新生成目标答案、构建目标缓存。
- 训练——针对缓存的目标输出训练草稿模型。
- 评估——在基准任务上测量投机解码的接受率。
数据准备
参见 scripts/data/README.md 了解分步数据流水线:
- 下载并拆分训练数据,
- 重新生成答案,
- 准备目标缓存(存储警告:该缓存可能非常大——对于默认的
Qwen/Qwen3-4B设置,大约为 38 TB)。
训练
bash scripts/train/train.sh
train.sh 启动 train.py,该脚本为每块可见 GPU 启动一个工作进程。通过将 config_path 指向 config/ 下的一个配置文件(例如 config/dspark/dspark_qwen3_4b.py)来选择算法和目标模型;详见脚本头部的完整配置文件列表、如何覆盖 config_path / target_cache_dir,以及如何使用 --opts 覆盖单个配置字段。
检查点写入到 ~/checkpoints/<算法>/<模型>/step_*。
硬件:默认配置和脚本假设单节点 8 块 GPU。若 GPU 数量较少,请减少 CUDA_VISIBLE_DEVICES。
评估
bash scripts/eval/eval.sh
eval.sh 运行 eval.py,针对训练好的草稿检查点,在 eval_datasets/ 中的投机解码基准任务(gsm8k、math500、aime25、humaneval、mbpp、livecodebench、mt-bench、alpaca、arena-hard-v2)上进行评估。
设置:
target_name_or_path——草稿模型所针对的目标模型(例如Qwen/Qwen3-4B),draft_name_or_path——草稿检查点路径,例如~/checkpoints/deepspec/dspark_block8_qwen3_4b/step_latest。
支持的算法
目前,DeepSpec 包含三种草稿模型:DSpark、DFlash (https://arxiv.org/abs/2602.06036) 和 Eagle3 (https://arxiv.org/abs/2503.01840)。
许可证
DeepSpec 采用 MIT 许可证 发布。其中包含从第三方项目改编的代码,这些代码遵循其自身许可证;完整的归属信息见 NOTICE。
致谢
DeepSpec 建立在多个优秀开源项目的思想和代码之上:
- SpecForge (https://github.com/sgl-project/SpecForge) (Apache-2.0)——整体训练框架和 Eagle3 实现;Eagle3 建模、损失函数、优化器、注意力机制和评估代码的部分内容改编自该项目。改编后的文件带有文件内的归属注释,完整声明记录在 NOTICE 中。
- DFlash (https://github.com/z-lab/dflash) (MIT)——DFlash 草稿模型的设计与训练方案。
- Qwen3 (https://github.com/QwenLM/Qwen3) 和 Gemma (https://github.com/google-deepmind/gemma)——本仓库支持的目标模型系列。
感谢这些项目的作者和维护者。欢迎贡献新算法。
相似文章
@dzhulgakov:来自 @deepseek_ai 的 DSpark 巧妙融合了多种投机解码思路,将吞吐量提升 1.5 到 5 倍…
来自 DeepSeek AI 的 DSpark 集成了投机解码思路,在生产系统中实现 1.5 到 5 倍的吞吐量提升。本推文从基础开始讲解了 10 个关键思路。
DeepSeek 开源推理优化,生成速度提升 60–85% [pdf]
DeepSeek 开源了 DeepSpec,这是一个用于训练和评估推测解码草稿模型的全栈代码库,可实现 60-85% 的生成速度提升。它包含数据准备、训练和评估脚本,支持多种草稿模型算法(DSpark、DFlash、Eagle3)。
deepseek-ai/DeepSeek-V4-Flash-DSpark
DeepSeek 发布 V4 系列混合专家语言模型(Pro 1.6T/49B 激活参数,Flash 284B/13B 激活参数),支持百万 token 上下文,采用混合注意力和推测解码,声称具有最佳开源模型性能。
@DeRonin_: DeepSeek 刚发布了一篇5页论文和免费GitHub仓库,能让任何LLM响应速度提升80%,这项技术叫推测性解码...
DeepSeek 发布了一篇论文以及采用MIT许可证的开源实现(DSpark),通过使用小型“猜测”模型和大型“检查”模型,将LLM响应速度提升高达80%,同时兼顾速度与准确率,无需权衡取舍。
deepseek-ai/DeepSeek-V4-Pro-DSpark
DeepSeek 发布了其 V4 系列的预览版本,包括 DeepSeek-V4-Pro(1.6T 参数,49B 激活)和 DeepSeek-V4-Flash(284B 参数,13B 激活),两者均支持百万 Token 上下文,并采用混合注意力、流形约束超连接和 Muon 优化器。