@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark，一种新的投机解码方法，将吞吐量提升51%至400%！…

X AI KOLs Timeline 2026/06/27 06:10 论文

speculative-decoding deepseek dspark throughput-optimization open-source large-language-models

摘要

DeepSeek发布了DSpark，一种投机解码方法，可将V4 Flash和Pro的吞吐量提升51%至400%，同时还开源了DeepSpec代码库，用于训练和评估草稿模型。

DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark，一种新的投机解码方法，将吞吐量提升51%至400%！DS还展示了DSpark在其他模型如Gemma和Qwen上也效果良好。Github: https://github.com/deepseek-ai/DeepSpec… 论文: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf… HF: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark…

查看原文

查看缓存全文

缓存时间: 2026/06/27 07:51

DeepSeek 刚刚为 V4 Flash & Pro 发布了 DSpark，一种新的投机解码方法，将吞吐量提升 51% 到 400%！DS 还展示了 DSpark 在其他模型（如 Gemma 和 Qwen）上同样表现良好。
GitHub: https://github.com/deepseek-ai/DeepSpec…
论文: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf…
Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark…

deepseek-ai/DeepSpec

来源：https://github.com/deepseek-ai/DeepSpec

DeepSpec

DeepSpec 是一个用于训练和评估投机解码草稿模型的全栈代码库。它包含数据准备工具、草稿模型实现、训练代码和评估脚本。

环境配置

安装 Python 依赖项：

python -m pip install -r requirements.txt

数据准备还额外需要一个推理引擎来服务目标模型（当重新生成答案时）；详见 scripts/data/README.md。

工作流程

按顺序运行各个阶段——每个阶段的输出作为下一阶段的输入：

数据准备——下载提示词、重新生成目标答案、构建目标缓存。
训练——针对缓存的目标输出训练草稿模型。
评估——在基准任务上测量投机解码的接受率。

数据准备

参见 scripts/data/README.md 了解分步数据流水线：

下载并拆分训练数据，
重新生成答案，
准备目标缓存（存储警告：该缓存可能非常大——对于默认的 Qwen/Qwen3-4B 设置，大约为 38 TB）。

训练

bash scripts/train/train.sh

train.sh 启动 train.py，该脚本为每块可见 GPU 启动一个工作进程。通过将 config_path 指向 config/ 下的一个配置文件（例如 config/dspark/dspark_qwen3_4b.py）来选择算法和目标模型；详见脚本头部的完整配置文件列表、如何覆盖 config_path / target_cache_dir，以及如何使用 --opts 覆盖单个配置字段。

检查点写入到 ~/checkpoints/<算法>/<模型>/step_*。

硬件：默认配置和脚本假设单节点 8 块 GPU。若 GPU 数量较少，请减少 CUDA_VISIBLE_DEVICES。

评估

bash scripts/eval/eval.sh

eval.sh 运行 eval.py，针对训练好的草稿检查点，在 eval_datasets/ 中的投机解码基准任务（gsm8k、math500、aime25、humaneval、mbpp、livecodebench、mt-bench、alpaca、arena-hard-v2）上进行评估。

设置：

target_name_or_path——草稿模型所针对的目标模型（例如 Qwen/Qwen3-4B），
draft_name_or_path——草稿检查点路径，例如 ~/checkpoints/deepspec/dspark_block8_qwen3_4b/step_latest。

支持的算法

目前，DeepSpec 包含三种草稿模型：DSpark、DFlash (https://arxiv.org/abs/2602.06036) 和 Eagle3 (https://arxiv.org/abs/2503.01840)。

许可证

DeepSpec 采用 MIT 许可证发布。其中包含从第三方项目改编的代码，这些代码遵循其自身许可证；完整的归属信息见 NOTICE。

致谢

DeepSpec 建立在多个优秀开源项目的思想和代码之上：

SpecForge (https://github.com/sgl-project/SpecForge) (Apache-2.0)——整体训练框架和 Eagle3 实现；Eagle3 建模、损失函数、优化器、注意力机制和评估代码的部分内容改编自该项目。改编后的文件带有文件内的归属注释，完整声明记录在 NOTICE 中。
DFlash (https://github.com/z-lab/dflash) (MIT)——DFlash 草稿模型的设计与训练方案。
Qwen3 (https://github.com/QwenLM/Qwen3) 和 Gemma (https://github.com/google-deepmind/gemma)——本仓库支持的目标模型系列。

感谢这些项目的作者和维护者。欢迎贡献新算法。

@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark，一种新的投机解码方法，将吞吐量提升51%至400%！…

deepseek-ai/DeepSpec

DeepSpec

环境配置

工作流程

数据准备

训练

评估

支持的算法

许可证

致谢

相似文章

@dzhulgakov：来自 @deepseek_ai 的 DSpark 巧妙融合了多种投机解码思路，将吞吐量提升 1.5 到 5 倍…

DeepSeek 开源推理优化，生成速度提升 60–85% [pdf]

deepseek-ai/DeepSeek-V4-Flash-DSpark

@DeRonin_: DeepSeek 刚发布了一篇5页论文和免费GitHub仓库，能让任何LLM响应速度提升80%，这项技术叫推测性解码...

deepseek-ai/DeepSeek-V4-Pro-DSpark

提交意见反馈