@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark,一种新的投机解码方法,将吞吐量提升51%至400%!…

X AI KOLs Timeline 论文

摘要

DeepSeek发布了DSpark,一种投机解码方法,可将V4 Flash和Pro的吞吐量提升51%至400%,同时还开源了DeepSpec代码库,用于训练和评估草稿模型。

DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark,一种新的投机解码方法,将吞吐量提升51%至400%!DS还展示了DSpark在其他模型如Gemma和Qwen上也效果良好。Github: https://github.com/deepseek-ai/DeepSpec… 论文: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf… HF: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark…
查看原文
查看缓存全文

缓存时间: 2026/06/27 07:51

DeepSeek 刚刚为 V4 Flash & Pro 发布了 DSpark,一种新的投机解码方法,将吞吐量提升 51% 到 400%!DS 还展示了 DSpark 在其他模型(如 Gemma 和 Qwen)上同样表现良好。
GitHub: https://github.com/deepseek-ai/DeepSpec…
论文: https://github.com/deepseek-ai/DeepSpec/blob/main/DSpark_paper.pdf…
Hugging Face: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark…


deepseek-ai/DeepSpec

来源:https://github.com/deepseek-ai/DeepSpec

DeepSpec

DeepSpec 是一个用于训练和评估投机解码草稿模型的全栈代码库。它包含数据准备工具、草稿模型实现、训练代码和评估脚本。

环境配置

安装 Python 依赖项:

python -m pip install -r requirements.txt

数据准备还额外需要一个推理引擎来服务目标模型(当重新生成答案时);详见 scripts/data/README.md

工作流程

按顺序运行各个阶段——每个阶段的输出作为下一阶段的输入:

  1. 数据准备——下载提示词、重新生成目标答案、构建目标缓存。
  2. 训练——针对缓存的目标输出训练草稿模型。
  3. 评估——在基准任务上测量投机解码的接受率。

数据准备

参见 scripts/data/README.md 了解分步数据流水线:

  1. 下载并拆分训练数据,
  2. 重新生成答案,
  3. 准备目标缓存(存储警告:该缓存可能非常大——对于默认的 Qwen/Qwen3-4B 设置,大约为 38 TB)。

训练

bash scripts/train/train.sh

train.sh 启动 train.py,该脚本为每块可见 GPU 启动一个工作进程。通过将 config_path 指向 config/ 下的一个配置文件(例如 config/dspark/dspark_qwen3_4b.py)来选择算法和目标模型;详见脚本头部的完整配置文件列表、如何覆盖 config_path / target_cache_dir,以及如何使用 --opts 覆盖单个配置字段。

检查点写入到 ~/checkpoints/<算法>/<模型>/step_*

硬件:默认配置和脚本假设单节点 8 块 GPU。若 GPU 数量较少,请减少 CUDA_VISIBLE_DEVICES

评估

bash scripts/eval/eval.sh

eval.sh 运行 eval.py,针对训练好的草稿检查点,在 eval_datasets/ 中的投机解码基准任务(gsm8k、math500、aime25、humaneval、mbpp、livecodebench、mt-bench、alpaca、arena-hard-v2)上进行评估。

设置:

  • target_name_or_path——草稿模型所针对的目标模型(例如 Qwen/Qwen3-4B),
  • draft_name_or_path——草稿检查点路径,例如 ~/checkpoints/deepspec/dspark_block8_qwen3_4b/step_latest

支持的算法

目前,DeepSpec 包含三种草稿模型:DSpark、DFlash (https://arxiv.org/abs/2602.06036) 和 Eagle3 (https://arxiv.org/abs/2503.01840)。

许可证

DeepSpec 采用 MIT 许可证 发布。其中包含从第三方项目改编的代码,这些代码遵循其自身许可证;完整的归属信息见 NOTICE

致谢

DeepSpec 建立在多个优秀开源项目的思想和代码之上:

  • SpecForge (https://github.com/sgl-project/SpecForge) (Apache-2.0)——整体训练框架和 Eagle3 实现;Eagle3 建模、损失函数、优化器、注意力机制和评估代码的部分内容改编自该项目。改编后的文件带有文件内的归属注释,完整声明记录在 NOTICE 中。
  • DFlash (https://github.com/z-lab/dflash) (MIT)——DFlash 草稿模型的设计与训练方案。
  • Qwen3 (https://github.com/QwenLM/Qwen3) 和 Gemma (https://github.com/google-deepmind/gemma)——本仓库支持的目标模型系列。

感谢这些项目的作者和维护者。欢迎贡献新算法。

相似文章

DeepSeek 开源推理优化,生成速度提升 60–85% [pdf]

Hacker News Top

DeepSeek 开源了 DeepSpec,这是一个用于训练和评估推测解码草稿模型的全栈代码库,可实现 60-85% 的生成速度提升。它包含数据准备、训练和评估脚本,支持多种草稿模型算法(DSpark、DFlash、Eagle3)。

deepseek-ai/DeepSeek-V4-Flash-DSpark

Hugging Face Models Trending

DeepSeek 发布 V4 系列混合专家语言模型(Pro 1.6T/49B 激活参数,Flash 284B/13B 激活参数),支持百万 token 上下文,采用混合注意力和推测解码,声称具有最佳开源模型性能。

deepseek-ai/DeepSeek-V4-Pro-DSpark

Hugging Face Models Trending

DeepSeek 发布了其 V4 系列的预览版本,包括 DeepSeek-V4-Pro(1.6T 参数,49B 激活)和 DeepSeek-V4-Flash(284B 参数,13B 激活),两者均支持百万 Token 上下文,并采用混合注意力、流形约束超连接和 Muon 优化器。