DeepSeek 开源推理优化，生成速度提升 60–85% [pdf]

Hacker News Top 2026/06/27 09:18 工具

speculative-decoding open-source draft-model inference-optimization deepseek training-framework

摘要

DeepSeek 开源了 DeepSpec，这是一个用于训练和评估推测解码草稿模型的全栈代码库，可实现 60-85% 的生成速度提升。它包含数据准备、训练和评估脚本，支持多种草稿模型算法（DSpark、DFlash、Eagle3）。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/06/27 09:50

deepseek-ai/DeepSpec 源代码：https://github.com/deepseek-ai/DeepSpec # DeepSpec DeepSpec 是一个用于训练和评估投机解码草稿模型的全栈代码库，包含数据准备工具、草稿模型实现、训练代码和评估脚本。 ## 环境安装 Python 依赖： `bash python -m pip install -r requirements.txt` 数据准备额外需要一个推理引擎来服务目标模型（用于重新生成答案），详见 scripts/data/README.md。 ## 工作流程按顺序执行各阶段——每个阶段的输出作为下一阶段的输入： 1. 数据准备 — 下载提示词、重新生成目标答案并构建目标缓存。 2. 训练 — 基于缓存的目标输出训练草稿模型。 3. 评估 — 在基准任务上测量投机解码的接受率。 ## 数据准备详见 scripts/data/README.md 的分步数据流水线： 1. 下载并拆分训练数据， 2. 重新生成答案， 3. 准备目标缓存（存储警告：这可能会非常大——对于默认的 `Qwen/Qwen3-4B` 设置，大约需要 38 TB）。 ## 训练 `bash bash scripts/train/train.sh` `train.sh` 启动 `train.py`，该文件为每个可见 GPU 启动一个工作进程。通过将 `config_path` 指向 config/ 下的某个配置文件（例如 `config/dspark/dspark_qwen3_4b.py`）来选择算法和目标模型；详见脚本头部的配置文件完整列表、如何覆盖 `config_path` / `target_cache_dir`，以及如何使用 `--opts` 覆盖单个配置字段。检查点会写入 `~/checkpoints///step_*`。硬件：默认配置和脚本假设单个节点有 8 张 GPU。如果 GPU 较少，请减少 `CUDA_VISIBLE_DEVICES`。 ## 评估 `bash bash scripts/eval/eval.sh` `eval.sh` 对 eval_datasets/ 中的投机解码基准（gsm8k、math500、aime25、humaneval、mbpp、livecodebench、mt-bench、alpaca、arena-hard-v2）运行 `eval.py` 评估已训练的草稿检查点。设置： - `target_name_or_path` — 草稿所针对训练的目标模型（例如 `Qwen/Qwen3-4B`）， - `draft_name_or_path` — 草稿检查点，例如 `~/checkpoints/deepspec/dspark_block8_qwen3_4b/step_latest`。 ## 支持的算法目前，DeepSpec 包含三种草稿模型：DSpark、DFlash（https://arxiv.org/abs/2602.06036）和 Eagle3（https://arxiv.org/abs/2503.01840）。 ## 许可证 DeepSpec 基于 MIT 许可证发布。其中包含从第三方项目改编的代码，这些代码遵循其自身许可证；详见 NOTICE 中的完整归属信息。 ## 致谢 DeepSpec 借鉴了以下优秀开源项目的思路和代码： - SpecForge（https://github.com/sgl-project/SpecForge）（Apache-2.0）——整体训练框架和 Eagle3 实现；部分 Eagle3 建模、损失函数、优化器、注意力和评估代码改编自该项目。改编后的文件包含文件内归属注释，完整声明见 NOTICE。 - DFlash（https://github.com/z-lab/dflash）（MIT）——DFlash 草稿模型设计和训练方法。 - Qwen3（https://github.com/QwenLM/Qwen3）和 Gemma（https://github.com/google-deepmind/gemma）——本仓库支持的目标模型家族。我们感谢这些项目的作者和维护者。欢迎贡献新算法。

X AI KOLs Timeline

DeepSeek发布了DSpark，一种投机解码方法，可将V4 Flash和Pro的吞吐量提升51%至400%，同时还开源了DeepSpec代码库，用于训练和评估草稿模型。

X AI KOLs Timeline

DeepSeek 开源了 DeepSpec，一个用于训练和评估推测解码模型的完整技术栈代码库。

X AI KOLs Following

DeepSeek 发布了一篇论文以及采用MIT许可证的开源实现（DSpark），通过使用小型“猜测”模型和大型“检查”模型，将LLM响应速度提升高达80%，同时兼顾速度与准确率，无需权衡取舍。

Reddit r/LocalLLaMA

DeepSeek AI 在 Hugging Face 上发布了 DeepSpec 集合，包含基于 Qwen3 和 Gemma4 的各种尺寸（1B-3B）的推测解码模型（dspark, dflash, eagle3）。

Hugging Face Models Trending

DeepSeek 发布 V4 系列混合专家语言模型（Pro 1.6T/49B 激活参数，Flash 284B/13B 激活参数），支持百万 token 上下文，采用混合注意力和推测解码，声称具有最佳开源模型性能。