DeepSeek 开源推理优化,生成速度提升 60–85% [pdf]
摘要
DeepSeek 开源了 DeepSpec,这是一个用于训练和评估推测解码草稿模型的全栈代码库,可实现 60-85% 的生成速度提升。它包含数据准备、训练和评估脚本,支持多种草稿模型算法(DSpark、DFlash、Eagle3)。
暂无内容
查看缓存全文
缓存时间: 2026/06/27 09:50
deepseek-ai/DeepSpec 源代码:https://github.com/deepseek-ai/DeepSpec # DeepSpec DeepSpec 是一个用于训练和评估投机解码草稿模型的全栈代码库,包含数据准备工具、草稿模型实现、训练代码和评估脚本。 ## 环境 安装 Python 依赖: bash python -m pip install -r requirements.txt 数据准备额外需要一个推理引擎来服务目标模型(用于重新生成答案),详见 scripts/data/README.md。 ## 工作流程 按顺序执行各阶段——每个阶段的输出作为下一阶段的输入: 1. 数据准备 — 下载提示词、重新生成目标答案并构建目标缓存。 2. 训练 — 基于缓存的目标输出训练草稿模型。 3. 评估 — 在基准任务上测量投机解码的接受率。 ## 数据准备 详见 scripts/data/README.md 的分步数据流水线: 1. 下载并拆分训练数据, 2. 重新生成答案, 3. 准备目标缓存(存储警告:这可能会非常大——对于默认的 Qwen/Qwen3-4B 设置,大约需要 38 TB)。 ## 训练 bash bash scripts/train/train.sh train.sh 启动 train.py,该文件为每个可见 GPU 启动一个工作进程。通过将 config_path 指向 config/ 下的某个配置文件(例如 config/dspark/dspark_qwen3_4b.py)来选择算法和目标模型;详见脚本头部的配置文件完整列表、如何覆盖 config_path / target_cache_dir,以及如何使用 --opts 覆盖单个配置字段。检查点会写入 ~/checkpoints///step_*。 硬件:默认配置和脚本假设单个节点有 8 张 GPU。如果 GPU 较少,请减少 CUDA_VISIBLE_DEVICES。 ## 评估 bash bash scripts/eval/eval.sh eval.sh 对 eval_datasets/ 中的投机解码基准(gsm8k、math500、aime25、humaneval、mbpp、livecodebench、mt-bench、alpaca、arena-hard-v2)运行 eval.py 评估已训练的草稿检查点。 设置: - target_name_or_path — 草稿所针对训练的目标模型(例如 Qwen/Qwen3-4B), - draft_name_or_path — 草稿检查点,例如 ~/checkpoints/deepspec/dspark_block8_qwen3_4b/step_latest。 ## 支持的算法 目前,DeepSpec 包含三种草稿模型:DSpark、DFlash(https://arxiv.org/abs/2602.06036)和 Eagle3(https://arxiv.org/abs/2503.01840)。 ## 许可证 DeepSpec 基于 MIT 许可证 发布。其中包含从第三方项目改编的代码,这些代码遵循其自身许可证;详见 NOTICE 中的完整归属信息。 ## 致谢 DeepSpec 借鉴了以下优秀开源项目的思路和代码: - SpecForge(https://github.com/sgl-project/SpecForge)(Apache-2.0)——整体训练框架和 Eagle3 实现;部分 Eagle3 建模、损失函数、优化器、注意力和评估代码改编自该项目。改编后的文件包含文件内归属注释,完整声明见 NOTICE。 - DFlash(https://github.com/z-lab/dflash)(MIT)——DFlash 草稿模型设计和训练方法。 - Qwen3(https://github.com/QwenLM/Qwen3)和 Gemma(https://github.com/google-deepmind/gemma)——本仓库支持的目标模型家族。 我们感谢这些项目的作者和维护者。欢迎贡献新算法。
相似文章
@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark,一种新的投机解码方法,将吞吐量提升51%至400%!…
DeepSeek发布了DSpark,一种投机解码方法,可将V4 Flash和Pro的吞吐量提升51%至400%,同时还开源了DeepSpec代码库,用于训练和评估草稿模型。
@charles_irl: 这是spec火热夏天
DeepSeek 开源了 DeepSpec,一个用于训练和评估推测解码模型的完整技术栈代码库。
@DeRonin_: DeepSeek 刚发布了一篇5页论文和免费GitHub仓库,能让任何LLM响应速度提升80%,这项技术叫推测性解码...
DeepSeek 发布了一篇论文以及采用MIT许可证的开源实现(DSpark),通过使用小型“猜测”模型和大型“检查”模型,将LLM响应速度提升高达80%,同时兼顾速度与准确率,无需权衡取舍。
DeepSpec - deepseek-ai 集合
DeepSeek AI 在 Hugging Face 上发布了 DeepSpec 集合,包含基于 Qwen3 和 Gemma4 的各种尺寸(1B-3B)的推测解码模型(dspark, dflash, eagle3)。
deepseek-ai/DeepSeek-V4-Flash-DSpark
DeepSeek 发布 V4 系列混合专家语言模型(Pro 1.6T/49B 激活参数,Flash 284B/13B 激活参数),支持百万 token 上下文,采用混合注意力和推测解码,声称具有最佳开源模型性能。