deepseek-ai/DeepSeek-V4-Flash-DSpark
摘要
DeepSeek 发布 V4 系列混合专家语言模型(Pro 1.6T/49B 激活参数,Flash 284B/13B 激活参数),支持百万 token 上下文,采用混合注意力和推测解码,声称具有最佳开源模型性能。
查看缓存全文
缓存时间: 2026/06/29 05:28
deepseek-ai/DeepSeek-V4-Flash-DSpark · Hugging Face 源: https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#deepseek-v4-towards-highly-efficient-million-token-context-intelligence
DeepSeek-V4: 迈向高效百万Token上下文智能
DeepSeek-V4
主页 (https://www.deepseek.com/) 聊天 (https://chat.deepseek.com/) Hugging Face (https://huggingface.co/deepseek-ai) Twitter 关注 (https://twitter.com/deepseek_ai) 许可证 (https://huggingface.co/deepseek-ai/LICENSE)
技术报告 👁️ (https://arxiv.org/abs/2606.19348)
注意:DeepSeek-V4-Flash-DSpark 并不是一个新模型。它是同一个检查点,但额外附加了一个推测解码模块。一个最小的推理示例可在 inference (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark/blob/main/inference/README.md) 文件夹中找到。更多细节请参考:https://github.com/deepseek-ai/DeepSpec
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#introduction
引言
我们发布了 DeepSeek-V4 系列的预览版本,包括两个强大的混合专家(MoE)语言模型——DeepSeek-V4-Pro(1.6T 参数,49B 激活)和 DeepSeek-V4-Flash(284B 参数,13B 激活)——两者均支持 一百万 token 的上下文长度。
DeepSeek-V4 系列在架构和优化方面引入了多项关键升级:
-
混合注意力架构:我们设计了一种混合注意力机制,结合了压缩稀疏注意力(CSA)和重度压缩注意力(HCA),显著提升长上下文的效率。在 1M token 上下文设置下,DeepSeek-V4-Pro 相比 DeepSeek-V3 仅需 27% 的单 token 推理 FLOPs 和 10% 的 KV 缓存。
-
流形约束超连接 (mHC):我们引入 mHC 来增强传统残差连接,在保持模型表达能力的同时,增强了信号在层间传播的稳定性。
-
Muon 优化器:我们采用 Muon 优化器,以实现更快的收敛和更强的训练稳定性。
我们在超过 32T 个多样化且高质量的 token 上预训练了这两个模型,随后进行了全面的后训练流程。后训练采用两阶段范式:首先通过 SFT 和 GRPO 强化学习独立培养领域特定专家,然后通过在线策略蒸馏进行统一模型整合,将不同领域的专长融合到一个模型中。
DeepSeek-V4-Pro-Max 是 DeepSeek-V4-Pro 的最大推理努力模式,显著提升了开源模型的知识能力,牢固确立了其作为当今最佳开源模型的地位。它在编码基准测试中取得了顶级性能,并在推理和智能体任务上显著缩小了与领先闭源模型的差距。同时,DeepSeek-V4-Flash-Max 在拥有更大思考预算时,可达到与 Pro 版本相当的推理性能,但其较小的参数量自然使其在纯知识任务和最复杂的智能体工作流程上略逊一筹。
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#model-downloads
模型下载
*FP4 + FP8 混合:MoE 专家参数使用 FP4 精度;大多数其他参数使用 FP8。
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#evaluation-results
评估结果
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#base-model基座模型
| 基准测试 (指标) | # Shots | DeepSeek-V3.2-Base | DeepSeek-V4-Flash-Base | DeepSeek-V4-Pro-Base |
|---|---|---|---|---|
| 架构 | - | MoE | MoE | MoE |
| 激活参数 | - | 37B | 13B | 49B |
| 总参数 | - | 671B | 284B | 1.6T |
| 世界知识 | ||||
| AGIEval (EM) | 0-shot | 80.1 | 82.6 | 83.1 |
| MMLU (EM) | 5-shot | 87.8 | 88.7 | 90.1 |
| MMLU-Redux (EM) | 5-shot | 87.5 | 89.4 | 90.8 |
| MMLU-Pro (EM) | 5-shot | 65.5 | 68.3 | 73.5 |
| MMMLU (EM) | 5-shot | 87.9 | 88.8 | 90.3 |
| C-Eval (EM) | 5-shot | 90.4 | 92.1 | 93.1 |
| CMMLU (EM) | 5-shot | 88.9 | 90.4 | 90.8 |
| MultiLoKo (EM) | 5-shot | 38.7 | 42.2 | 51.1 |
| Simple-QA verified (EM) | 25-shot | 28.3 | 30.1 | 55.2 |
| SuperGPQA (EM) | 5-shot | 45.0 | 46.5 | 53.9 |
| FACTS Parametric (EM) | 25-shot | 27.1 | 33.9 | 62.6 |
| TriviaQA (EM) | 5-shot | 83.3 | 82.8 | 85.6 |
| 语言与推理 | ||||
| BBH (EM) | 3-shot | 87.6 | 86.9 | 87.5 |
| DROP (F1) | 1-shot | 88.2 | 88.6 | 88.7 |
| HellaSwag (EM) | 0-shot | 86.4 | 85.7 | 88.0 |
| WinoGrande (EM) | 0-shot | 78.9 | 79.5 | 81.5 |
| CLUEWSC (EM) | 5-shot | 83.5 | 82.2 | 85.2 |
| 代码与数学 | ||||
| BigCodeBench (Pass@1) | 3-shot | 63.9 | 56.8 | 59.2 |
| HumanEval (Pass@1) | 0-shot | 62.8 | 69.5 | 76.8 |
| GSM8K (EM) | 8-shot | 91.1 | 90.8 | 92.6 |
| MATH (EM) | 4-shot | 60.5 | 57.4 | 64.5 |
| MGSM (EM) | 8-shot | 81.3 | 85.7 | 84.4 |
| CMath (EM) | 3-shot | 92.6 | 93.6 | 90.9 |
| 长上下文 | ||||
| LongBench-V2 (EM) | 1-shot | 40.2 | 44.7 | 51.5 |
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#instruct-model指令模型
DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均支持三种推理努力模式:
| 推理模式 | 特性 | 典型用例 | 响应格式 |
|---|---|---|---|
| 非思考 | 快速直觉式响应 | 常规日常任务、低风险决策 | summary |
| 思考高 | 有意识的逻辑分析,较慢但更准确 | 复杂问题解决、规划 | thinking summary |
| 思考最大 | 将推理推向极致 | 探索模型推理能力的边界 | 特殊系统提示 + thinking summary |
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#deepseek-v4-pro-max-vs-frontier-modelsDeepSeek-V4-Pro-Max 对比前沿模型
| 基准测试 (指标) | Opus-4.6 Max | GPT-5.4 xHigh | Gemini-3.1-Pro High | K2.6 Thinking | GLM-5.1 Thinking | DS-V4-Pro Max |
|---|---|---|---|---|---|---|
| 知识与推理 | ||||||
| MMLU-Pro (EM) | 89.1 | 87.5 | 91.0 | 87.1 | 86.0 | 87.5 |
| SimpleQA-Verified (Pass@1) | 46.2 | 45.3 | 75.6 | 36.9 | 38.1 | 57.9 |
| Chinese-SimpleQA (Pass@1) | 76.4 | 76.8 | 85.9 | 75.9 | 75.0 | 84.4 |
| GPQA Diamond (Pass@1) | 91.3 | 93.0 | 94.3 | 90.5 | 86.2 | 90.1 |
| HLE (Pass@1) | 40.0 | 39.8 | 44.4 | 36.4 | 34.7 | 37.7 |
| LiveCodeBench (Pass@1) | 88.8 | - | 91.7 | 89.6 | - | 93.5 |
| Codeforces (Rating) | - | 3168 | 3052 | - | - | 3206 |
| HMMT 2026 Feb (Pass@1) | 96.2 | 97.7 | 94.7 | 92.7 | 89.4 | 95.2 |
| IMOAnswerBench (Pass@1) | 75.3 | 91.4 | 81.0 | 86.0 | 83.8 | 89.8 |
| Apex (Pass@1) | 34.5 | 54.1 | 60.9 | 24.0 | 11.5 | 38.3 |
| Apex Shortlist (Pass@1) | 85.9 | 78.1 | 89.1 | 75.5 | 72.4 | 90.2 |
| 长上下文 | ||||||
| MRCR 1M (MMR) | 92.9 | - | 76.3 | - | - | 83.5 |
| CorpusQA 1M (ACC) | 71.7 | - | 53.8 | - | - | 62.0 |
| 智能体 | ||||||
| Terminal Bench 2.0 (Acc) | 65.4 | 75.1 | 68.5 | 66.7 | 63.5 | 67.9 |
| SWE Verified (Resolved) | 80.8 | - | 80.6 | 80.2 | - | 80.6 |
| SWE Pro (Resolved) | 57.3 | 57.7 | 54.2 | 58.6 | 58.4 | 55.4 |
| SWE Multilingual (Resolved) | 77.5 | - | - | 76.7 | 73.3 | 76.2 |
| BrowseComp (Pass@1) | 83.7 | 82.7 | 85.9 | 83.2 | 79.3 | 83.4 |
| HLE w/ tools (Pass@1) | 53.1 | 52.0 | 51.6 | 54.0 | 50.4 | 48.2 |
| GDPval-AA (Elo) | 1619 | 1674 | 1314 | 1482 | 1535 | 1554 |
| MCPAtlas Public (Pass@1) | 73.8 | 67.2 | 69.2 | 66.6 | 71.8 | 73.6 |
| Toolathlon (Pass@1) | 47.2 | 54.6 | 48.8 | 50.0 | 40.7 | 51.8 |
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#comparison-across-modes不同模式间的对比
| 基准测试 (指标) | V4-Flash Non-Think | V4-Flash High | V4-Flash Max | V4-Pro Non-Think | V4-Pro High | V4-Pro Max |
|---|---|---|---|---|---|---|
| 知识与推理 | ||||||
| MMLU-Pro (EM) | 83.0 | 86.4 | 86.2 | 82.9 | 87.1 | 87.5 |
| SimpleQA-Verified (Pass@1) | 23.1 | 28.9 | 34.1 | 45.0 | 46.2 | 57.9 |
| Chinese-SimpleQA (Pass@1) | 71.5 | 73.2 | 78.9 | 75.8 | 77.7 | 84.4 |
| GPQA Diamond (Pass@1) | 71.2 | 87.4 | 88.1 | 72.9 | 89.1 | 90.1 |
| HLE (Pass@1) | 8.1 | 29.4 | 34.8 | 7.7 | 34.5 | 37.7 |
| LiveCodeBench (Pass@1) | 55.2 | 88.4 | 91.6 | 56.8 | 89.8 | 93.5 |
| Codeforces (Rating) | - | 2816 | 3052 | - | 2919 | 3206 |
| HMMT 2026 Feb (Pass@1) | 40.8 | 91.9 | 94.8 | 31.7 | 94.0 | 95.2 |
| IMOAnswerBench (Pass@1) | 41.9 | 85.1 | 88.4 | 35.3 | 88.0 | 89.8 |
| Apex (Pass@1) | 1.0 | 19.1 | 33.0 | 0.4 | 27.4 | 38.3 |
| Apex Shortlist (Pass@1) | 9.3 | 72.1 | 85.7 | 9.2 | 85.5 | 90.2 |
| 长上下文 | ||||||
| MRCR 1M (MMR) | 37.5 | 76.9 | 78.7 | 44.7 | 83.3 | 83.5 |
| CorpusQA 1M (ACC) | 15.5 | 59.3 | 60.5 | 35.6 | 56.5 | 62.0 |
| 智能体 | ||||||
| Terminal Bench 2.0 (Acc) | 49.1 | 56.6 | 56.9 | 59.1 | 63.3 | 67.9 |
| SWE Verified (Resolved) | 73.7 | 78.6 | 79.0 | 73.6 | 79.4 | 80.6 |
| SWE Pro (Resolved) | 49.1 | 52.3 | 52.6 | 52.1 | 54.4 | 55.4 |
| SWE Multilingual (Resolved) | 69.7 | 70.2 | 73.3 | 69.8 | 74.1 | 76.2 |
| BrowseComp (Pass@1) | - | 53.5 | 73.2 | - | 80.4 | 83.4 |
| HLE w/ tools (Pass@1) | - | 40.3 | 45.1 | - | 44.7 | 48.2 |
| MCPAtlas (Pass@1) | 64.0 | 67.4 | 69.0 | 69.4 | 74.2 | 73.6 |
| GDPval-AA (Elo) | - | - | 1395 | - | - | 1554 |
| Toolathlon (Pass@1) | 40.7 | 43.5 | 47.8 | 46.3 | 49.0 | 51.8 |
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#chat-template
聊天模板
本次发布不包含 Jinja 格式的聊天模板。我们提供了一个专用的 encoding 文件夹,其中包含 Python 脚本和测试用例,演示如何将以 OpenAI 兼容格式编码的消息转换为模型的输入字符串,以及如何解析模型的文本输出。请参考 encoding (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark/blob/main/encoding/README.md) 文件夹获取完整文档。
简要示例:
from encoding_dsv4 import encode_messages, parse_message_from_completion_text
messages = [
{"role": "user", "content": "hello"},
{"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},
{"role": "user", "content": "1+1=?"}
]
# messages -> string
prompt = encode_messages(messages, thinking_mode="thinking")
# string -> tokens
import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Pro")
tokens = tokenizer.encode(prompt)
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#how-to-run-locally
本地运行方法
请参考 inference (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark/blob/main/inference/README.md) 文件夹,获取在本地运行 DeepSeek-V4 的详细说明,包括模型权重转换和交互式聊天演示。
对于本地部署,我们建议将采样参数设置为 temperature = 1.0, top_p = 1.0。对于 Think Max 推理模式,我们建议将上下文窗口设置为至少 384K token。
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#license
许可证
此仓库和模型权重根据 MIT 许可证 (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark/blob/main/LICENSE) 授权。
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#citation
引用
@misc{deepseekai2026deepseekv4,
title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
author={DeepSeek-AI},
year={2026},
}
https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#contact
联系方式
如有任何问题,请提出 issue 或通过 [email protected] (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark/blob/main/[email protected]) 联系我们。
相似文章
deepseek-ai/DeepSeek-V4-Pro
DeepSeek 发布了 V4-Pro 和 V4-Flash,这些混合专家模型采用混合注意力机制和 Muon 优化器,支持百万 token 级上下文。
deepseek-ai/DeepSeek-V4-Flash
DeepSeek 发布 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro,新一代 MoE 语言模型,支持 100 万 token 上下文,效率和性能均有提升。
deepseek-ai/DeepSeek-V4-Pro-DSpark
DeepSeek 发布了其 V4 系列的预览版本,包括 DeepSeek-V4-Pro(1.6T 参数,49B 激活)和 DeepSeek-V4-Flash(284B 参数,13B 激活),两者均支持百万 Token 上下文,并采用混合注意力、流形约束超连接和 Muon 优化器。
@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark,一种新的投机解码方法,将吞吐量提升51%至400%!…
DeepSeek发布了DSpark,一种投机解码方法,可将V4 Flash和Pro的吞吐量提升51%至400%,同时还开源了DeepSpec代码库,用于训练和评估草稿模型。
DeepSpec - deepseek-ai 集合
DeepSeek AI 在 Hugging Face 上发布了 DeepSpec 集合,包含基于 Qwen3 和 Gemma4 的各种尺寸(1B-3B)的推测解码模型(dspark, dflash, eagle3)。