deepseek-ai/DeepSeek-V4-Flash-DSpark

Hugging Face Models Trending 2026/06/27 02:27 模型

mixture-of-experts long-context deepseek language-model open-source hybrid-attention

摘要

DeepSeek 发布 V4 系列混合专家语言模型（Pro 1.6T/49B 激活参数，Flash 284B/13B 激活参数），支持百万 token 上下文，采用混合注意力和推测解码，声称具有最佳开源模型性能。

Task: text-generation Tags: transformers, safetensors, deepseek_v4, text-generation, arxiv:2606.19348, license:mit, endpoints_compatible, 8-bit, fp8, region:us

查看原文

查看缓存全文

缓存时间: 2026/06/29 05:28

deepseek-ai/DeepSeek-V4-Flash-DSpark · Hugging Face 源: https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#deepseek-v4-towards-highly-efficient-million-token-context-intelligence

DeepSeek-V4: 迈向高效百万Token上下文智能

DeepSeek-V4

主页 (https://www.deepseek.com/) 聊天 (https://chat.deepseek.com/) Hugging Face (https://huggingface.co/deepseek-ai) Twitter 关注 (https://twitter.com/deepseek_ai) 许可证 (https://huggingface.co/deepseek-ai/LICENSE)

技术报告 👁️ (https://arxiv.org/abs/2606.19348)

注意：DeepSeek-V4-Flash-DSpark 并不是一个新模型。它是同一个检查点，但额外附加了一个推测解码模块。一个最小的推理示例可在 inference (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark/blob/main/inference/README.md) 文件夹中找到。更多细节请参考：https://github.com/deepseek-ai/DeepSpec

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#introduction

引言

我们发布了 DeepSeek-V4 系列的预览版本，包括两个强大的混合专家（MoE）语言模型——DeepSeek-V4-Pro（1.6T 参数，49B 激活）和 DeepSeek-V4-Flash（284B 参数，13B 激活）——两者均支持 一百万 token 的上下文长度。

DeepSeek-V4 系列在架构和优化方面引入了多项关键升级：

混合注意力架构：我们设计了一种混合注意力机制，结合了压缩稀疏注意力（CSA）和重度压缩注意力（HCA），显著提升长上下文的效率。在 1M token 上下文设置下，DeepSeek-V4-Pro 相比 DeepSeek-V3 仅需 27% 的单 token 推理 FLOPs 和 10% 的 KV 缓存。
流形约束超连接 (mHC)：我们引入 mHC 来增强传统残差连接，在保持模型表达能力的同时，增强了信号在层间传播的稳定性。
Muon 优化器：我们采用 Muon 优化器，以实现更快的收敛和更强的训练稳定性。

我们在超过 32T 个多样化且高质量的 token 上预训练了这两个模型，随后进行了全面的后训练流程。后训练采用两阶段范式：首先通过 SFT 和 GRPO 强化学习独立培养领域特定专家，然后通过在线策略蒸馏进行统一模型整合，将不同领域的专长融合到一个模型中。

DeepSeek-V4-Pro-Max 是 DeepSeek-V4-Pro 的最大推理努力模式，显著提升了开源模型的知识能力，牢固确立了其作为当今最佳开源模型的地位。它在编码基准测试中取得了顶级性能，并在推理和智能体任务上显著缩小了与领先闭源模型的差距。同时，DeepSeek-V4-Flash-Max 在拥有更大思考预算时，可达到与 Pro 版本相当的推理性能，但其较小的参数量自然使其在纯知识任务和最复杂的智能体工作流程上略逊一筹。

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#model-downloads

模型下载

*FP4 + FP8 混合：MoE 专家参数使用 FP4 精度；大多数其他参数使用 FP8。

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#evaluation-results

评估结果

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#base-model基座模型

基准测试 (指标)	# Shots	DeepSeek-V3.2-Base	DeepSeek-V4-Flash-Base	DeepSeek-V4-Pro-Base
架构	-	MoE	MoE	MoE
激活参数	-	37B	13B	49B
总参数	-	671B	284B	1.6T
世界知识
AGIEval (EM)	0-shot	80.1	82.6	83.1
MMLU (EM)	5-shot	87.8	88.7	90.1
MMLU-Redux (EM)	5-shot	87.5	89.4	90.8
MMLU-Pro (EM)	5-shot	65.5	68.3	73.5
MMMLU (EM)	5-shot	87.9	88.8	90.3
C-Eval (EM)	5-shot	90.4	92.1	93.1
CMMLU (EM)	5-shot	88.9	90.4	90.8
MultiLoKo (EM)	5-shot	38.7	42.2	51.1
Simple-QA verified (EM)	25-shot	28.3	30.1	55.2
SuperGPQA (EM)	5-shot	45.0	46.5	53.9
FACTS Parametric (EM)	25-shot	27.1	33.9	62.6
TriviaQA (EM)	5-shot	83.3	82.8	85.6
语言与推理
BBH (EM)	3-shot	87.6	86.9	87.5
DROP (F1)	1-shot	88.2	88.6	88.7
HellaSwag (EM)	0-shot	86.4	85.7	88.0
WinoGrande (EM)	0-shot	78.9	79.5	81.5
CLUEWSC (EM)	5-shot	83.5	82.2	85.2
代码与数学
BigCodeBench (Pass@1)	3-shot	63.9	56.8	59.2
HumanEval (Pass@1)	0-shot	62.8	69.5	76.8
GSM8K (EM)	8-shot	91.1	90.8	92.6
MATH (EM)	4-shot	60.5	57.4	64.5
MGSM (EM)	8-shot	81.3	85.7	84.4
CMath (EM)	3-shot	92.6	93.6	90.9
长上下文
LongBench-V2 (EM)	1-shot	40.2	44.7	51.5

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#instruct-model指令模型

DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均支持三种推理努力模式：

推理模式	特性	典型用例	响应格式
非思考	快速直觉式响应	常规日常任务、低风险决策	`summary`
思考高	有意识的逻辑分析，较慢但更准确	复杂问题解决、规划	`thinking` `summary`
思考最大	将推理推向极致	探索模型推理能力的边界	特殊系统提示 + `thinking` `summary`

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#deepseek-v4-pro-max-vs-frontier-modelsDeepSeek-V4-Pro-Max 对比前沿模型

基准测试 (指标)	Opus-4.6 Max	GPT-5.4 xHigh	Gemini-3.1-Pro High	K2.6 Thinking	GLM-5.1 Thinking	DS-V4-Pro Max
知识与推理
MMLU-Pro (EM)	89.1	87.5	91.0	87.1	86.0	87.5
SimpleQA-Verified (Pass@1)	46.2	45.3	75.6	36.9	38.1	57.9
Chinese-SimpleQA (Pass@1)	76.4	76.8	85.9	75.9	75.0	84.4
GPQA Diamond (Pass@1)	91.3	93.0	94.3	90.5	86.2	90.1
HLE (Pass@1)	40.0	39.8	44.4	36.4	34.7	37.7
LiveCodeBench (Pass@1)	88.8	-	91.7	89.6	-	93.5
Codeforces (Rating)	-	3168	3052	-	-	3206
HMMT 2026 Feb (Pass@1)	96.2	97.7	94.7	92.7	89.4	95.2
IMOAnswerBench (Pass@1)	75.3	91.4	81.0	86.0	83.8	89.8
Apex (Pass@1)	34.5	54.1	60.9	24.0	11.5	38.3
Apex Shortlist (Pass@1)	85.9	78.1	89.1	75.5	72.4	90.2
长上下文
MRCR 1M (MMR)	92.9	-	76.3	-	-	83.5
CorpusQA 1M (ACC)	71.7	-	53.8	-	-	62.0
智能体
Terminal Bench 2.0 (Acc)	65.4	75.1	68.5	66.7	63.5	67.9
SWE Verified (Resolved)	80.8	-	80.6	80.2	-	80.6
SWE Pro (Resolved)	57.3	57.7	54.2	58.6	58.4	55.4
SWE Multilingual (Resolved)	77.5	-	-	76.7	73.3	76.2
BrowseComp (Pass@1)	83.7	82.7	85.9	83.2	79.3	83.4
HLE w/ tools (Pass@1)	53.1	52.0	51.6	54.0	50.4	48.2
GDPval-AA (Elo)	1619	1674	1314	1482	1535	1554
MCPAtlas Public (Pass@1)	73.8	67.2	69.2	66.6	71.8	73.6
Toolathlon (Pass@1)	47.2	54.6	48.8	50.0	40.7	51.8

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#comparison-across-modes不同模式间的对比

基准测试 (指标)	V4-Flash Non-Think	V4-Flash High	V4-Flash Max	V4-Pro Non-Think	V4-Pro High	V4-Pro Max
知识与推理
MMLU-Pro (EM)	83.0	86.4	86.2	82.9	87.1	87.5
SimpleQA-Verified (Pass@1)	23.1	28.9	34.1	45.0	46.2	57.9
Chinese-SimpleQA (Pass@1)	71.5	73.2	78.9	75.8	77.7	84.4
GPQA Diamond (Pass@1)	71.2	87.4	88.1	72.9	89.1	90.1
HLE (Pass@1)	8.1	29.4	34.8	7.7	34.5	37.7
LiveCodeBench (Pass@1)	55.2	88.4	91.6	56.8	89.8	93.5
Codeforces (Rating)	-	2816	3052	-	2919	3206
HMMT 2026 Feb (Pass@1)	40.8	91.9	94.8	31.7	94.0	95.2
IMOAnswerBench (Pass@1)	41.9	85.1	88.4	35.3	88.0	89.8
Apex (Pass@1)	1.0	19.1	33.0	0.4	27.4	38.3
Apex Shortlist (Pass@1)	9.3	72.1	85.7	9.2	85.5	90.2
长上下文
MRCR 1M (MMR)	37.5	76.9	78.7	44.7	83.3	83.5
CorpusQA 1M (ACC)	15.5	59.3	60.5	35.6	56.5	62.0
智能体
Terminal Bench 2.0 (Acc)	49.1	56.6	56.9	59.1	63.3	67.9
SWE Verified (Resolved)	73.7	78.6	79.0	73.6	79.4	80.6
SWE Pro (Resolved)	49.1	52.3	52.6	52.1	54.4	55.4
SWE Multilingual (Resolved)	69.7	70.2	73.3	69.8	74.1	76.2
BrowseComp (Pass@1)	-	53.5	73.2	-	80.4	83.4
HLE w/ tools (Pass@1)	-	40.3	45.1	-	44.7	48.2
MCPAtlas (Pass@1)	64.0	67.4	69.0	69.4	74.2	73.6
GDPval-AA (Elo)	-	-	1395	-	-	1554
Toolathlon (Pass@1)	40.7	43.5	47.8	46.3	49.0	51.8

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#chat-template

聊天模板

本次发布不包含 Jinja 格式的聊天模板。我们提供了一个专用的 encoding 文件夹，其中包含 Python 脚本和测试用例，演示如何将以 OpenAI 兼容格式编码的消息转换为模型的输入字符串，以及如何解析模型的文本输出。请参考 encoding (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark/blob/main/encoding/README.md) 文件夹获取完整文档。

简要示例：

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "user", "content": "hello"},
    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},
    {"role": "user", "content": "1+1=?"}
]

# messages -> string
prompt = encode_messages(messages, thinking_mode="thinking")

# string -> tokens
import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Pro")
tokens = tokenizer.encode(prompt)

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#how-to-run-locally

本地运行方法

请参考 inference (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark/blob/main/inference/README.md) 文件夹，获取在本地运行 DeepSeek-V4 的详细说明，包括模型权重转换和交互式聊天演示。

对于本地部署，我们建议将采样参数设置为 temperature = 1.0, top_p = 1.0。对于 Think Max 推理模式，我们建议将上下文窗口设置为至少 384K token。

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#license

许可证

此仓库和模型权重根据 MIT 许可证 (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark/blob/main/LICENSE) 授权。

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#citation

引用

@misc{deepseekai2026deepseekv4,
      title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
      author={DeepSeek-AI},
      year={2026},
}

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#contact

联系方式

如有任何问题，请提出 issue 或通过 [email protected] (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark/blob/main/[email protected]) 联系我们。

deepseek-ai/DeepSeek-V4-Flash-DSpark

deepseek-ai/DeepSeek-V4-Flash-DSpark · Hugging Face 源: https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#deepseek-v4-towards-highly-efficient-million-token-context-intelligence

DeepSeek-V4

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#introduction

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#model-downloads

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#evaluation-results

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#base-model基座模型

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#instruct-model指令模型

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#deepseek-v4-pro-max-vs-frontier-modelsDeepSeek-V4-Pro-Max 对比前沿模型

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#comparison-across-modes不同模式间的对比

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#chat-template

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#how-to-run-locally

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#license

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#citation

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#contact

相似文章

deepseek-ai/DeepSeek-V4-Pro

deepseek-ai/DeepSeek-V4-Flash

deepseek-ai/DeepSeek-V4-Pro-DSpark

@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark，一种新的投机解码方法，将吞吐量提升51%至400%！…

DeepSpec - deepseek-ai 集合

提交意见反馈