deepseek-ai/DeepSeek-V4-Flash-DSpark

Hugging Face Models Trending 模型

摘要

DeepSeek 发布 V4 系列混合专家语言模型(Pro 1.6T/49B 激活参数,Flash 284B/13B 激活参数),支持百万 token 上下文,采用混合注意力和推测解码,声称具有最佳开源模型性能。

Task: text-generation Tags: transformers, safetensors, deepseek_v4, text-generation, arxiv:2606.19348, license:mit, endpoints_compatible, 8-bit, fp8, region:us
查看原文
查看缓存全文

缓存时间: 2026/06/29 05:28

deepseek-ai/DeepSeek-V4-Flash-DSpark · Hugging Face 源: https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#deepseek-v4-towards-highly-efficient-million-token-context-intelligence

DeepSeek-V4: 迈向高效百万Token上下文智能

DeepSeek-V4

主页 (https://www.deepseek.com/) 聊天 (https://chat.deepseek.com/) Hugging Face (https://huggingface.co/deepseek-ai) Twitter 关注 (https://twitter.com/deepseek_ai) 许可证 (https://huggingface.co/deepseek-ai/LICENSE)

技术报告 👁️ (https://arxiv.org/abs/2606.19348)

注意:DeepSeek-V4-Flash-DSpark不是一个新模型。它是同一个检查点,但额外附加了一个推测解码模块。一个最小的推理示例可在 inference (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark/blob/main/inference/README.md) 文件夹中找到。更多细节请参考:https://github.com/deepseek-ai/DeepSpec

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#introduction

引言

我们发布了 DeepSeek-V4 系列的预览版本,包括两个强大的混合专家(MoE)语言模型——DeepSeek-V4-Pro(1.6T 参数,49B 激活)和 DeepSeek-V4-Flash(284B 参数,13B 激活)——两者均支持 一百万 token 的上下文长度。

DeepSeek-V4 系列在架构和优化方面引入了多项关键升级:

  1. 混合注意力架构:我们设计了一种混合注意力机制,结合了压缩稀疏注意力(CSA)和重度压缩注意力(HCA),显著提升长上下文的效率。在 1M token 上下文设置下,DeepSeek-V4-Pro 相比 DeepSeek-V3 仅需 27% 的单 token 推理 FLOPs10% 的 KV 缓存

  2. 流形约束超连接 (mHC):我们引入 mHC 来增强传统残差连接,在保持模型表达能力的同时,增强了信号在层间传播的稳定性。

  3. Muon 优化器:我们采用 Muon 优化器,以实现更快的收敛和更强的训练稳定性。

我们在超过 32T 个多样化且高质量的 token 上预训练了这两个模型,随后进行了全面的后训练流程。后训练采用两阶段范式:首先通过 SFT 和 GRPO 强化学习独立培养领域特定专家,然后通过在线策略蒸馏进行统一模型整合,将不同领域的专长融合到一个模型中。

DeepSeek-V4-Pro-Max 是 DeepSeek-V4-Pro 的最大推理努力模式,显著提升了开源模型的知识能力,牢固确立了其作为当今最佳开源模型的地位。它在编码基准测试中取得了顶级性能,并在推理和智能体任务上显著缩小了与领先闭源模型的差距。同时,DeepSeek-V4-Flash-Max 在拥有更大思考预算时,可达到与 Pro 版本相当的推理性能,但其较小的参数量自然使其在纯知识任务和最复杂的智能体工作流程上略逊一筹。

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#model-downloads

模型下载

*FP4 + FP8 混合:MoE 专家参数使用 FP4 精度;大多数其他参数使用 FP8。

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#evaluation-results

评估结果

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#base-model基座模型

基准测试 (指标)# ShotsDeepSeek-V3.2-BaseDeepSeek-V4-Flash-BaseDeepSeek-V4-Pro-Base
架构-MoEMoEMoE
激活参数-37B13B49B
总参数-671B284B1.6T
世界知识
AGIEval (EM)0-shot80.182.683.1
MMLU (EM)5-shot87.888.790.1
MMLU-Redux (EM)5-shot87.589.490.8
MMLU-Pro (EM)5-shot65.568.373.5
MMMLU (EM)5-shot87.988.890.3
C-Eval (EM)5-shot90.492.193.1
CMMLU (EM)5-shot88.990.490.8
MultiLoKo (EM)5-shot38.742.251.1
Simple-QA verified (EM)25-shot28.330.155.2
SuperGPQA (EM)5-shot45.046.553.9
FACTS Parametric (EM)25-shot27.133.962.6
TriviaQA (EM)5-shot83.382.885.6
语言与推理
BBH (EM)3-shot87.686.987.5
DROP (F1)1-shot88.288.688.7
HellaSwag (EM)0-shot86.485.788.0
WinoGrande (EM)0-shot78.979.581.5
CLUEWSC (EM)5-shot83.582.285.2
代码与数学
BigCodeBench (Pass@1)3-shot63.956.859.2
HumanEval (Pass@1)0-shot62.869.576.8
GSM8K (EM)8-shot91.190.892.6
MATH (EM)4-shot60.557.464.5
MGSM (EM)8-shot81.385.784.4
CMath (EM)3-shot92.693.690.9
长上下文
LongBench-V2 (EM)1-shot40.244.751.5

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#instruct-model指令模型

DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均支持三种推理努力模式:

推理模式特性典型用例响应格式
非思考快速直觉式响应常规日常任务、低风险决策summary
思考高有意识的逻辑分析,较慢但更准确复杂问题解决、规划thinking summary
思考最大将推理推向极致探索模型推理能力的边界特殊系统提示 + thinking summary

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#deepseek-v4-pro-max-vs-frontier-modelsDeepSeek-V4-Pro-Max 对比前沿模型

基准测试 (指标)Opus-4.6 MaxGPT-5.4 xHighGemini-3.1-Pro HighK2.6 ThinkingGLM-5.1 ThinkingDS-V4-Pro Max
知识与推理
MMLU-Pro (EM)89.187.591.087.186.087.5
SimpleQA-Verified (Pass@1)46.245.375.636.938.157.9
Chinese-SimpleQA (Pass@1)76.476.885.975.975.084.4
GPQA Diamond (Pass@1)91.393.094.390.586.290.1
HLE (Pass@1)40.039.844.436.434.737.7
LiveCodeBench (Pass@1)88.8-91.789.6-93.5
Codeforces (Rating)-31683052--3206
HMMT 2026 Feb (Pass@1)96.297.794.792.789.495.2
IMOAnswerBench (Pass@1)75.391.481.086.083.889.8
Apex (Pass@1)34.554.160.924.011.538.3
Apex Shortlist (Pass@1)85.978.189.175.572.490.2
长上下文
MRCR 1M (MMR)92.9-76.3--83.5
CorpusQA 1M (ACC)71.7-53.8--62.0
智能体
Terminal Bench 2.0 (Acc)65.475.168.566.763.567.9
SWE Verified (Resolved)80.8-80.680.2-80.6
SWE Pro (Resolved)57.357.754.258.658.455.4
SWE Multilingual (Resolved)77.5--76.773.376.2
BrowseComp (Pass@1)83.782.785.983.279.383.4
HLE w/ tools (Pass@1)53.152.051.654.050.448.2
GDPval-AA (Elo)161916741314148215351554
MCPAtlas Public (Pass@1)73.867.269.266.671.873.6
Toolathlon (Pass@1)47.254.648.850.040.751.8

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#comparison-across-modes不同模式间的对比

基准测试 (指标)V4-Flash Non-ThinkV4-Flash HighV4-Flash MaxV4-Pro Non-ThinkV4-Pro HighV4-Pro Max
知识与推理
MMLU-Pro (EM)83.086.486.282.987.187.5
SimpleQA-Verified (Pass@1)23.128.934.145.046.257.9
Chinese-SimpleQA (Pass@1)71.573.278.975.877.784.4
GPQA Diamond (Pass@1)71.287.488.172.989.190.1
HLE (Pass@1)8.129.434.87.734.537.7
LiveCodeBench (Pass@1)55.288.491.656.889.893.5
Codeforces (Rating)-28163052-29193206
HMMT 2026 Feb (Pass@1)40.891.994.831.794.095.2
IMOAnswerBench (Pass@1)41.985.188.435.388.089.8
Apex (Pass@1)1.019.133.00.427.438.3
Apex Shortlist (Pass@1)9.372.185.79.285.590.2
长上下文
MRCR 1M (MMR)37.576.978.744.783.383.5
CorpusQA 1M (ACC)15.559.360.535.656.562.0
智能体
Terminal Bench 2.0 (Acc)49.156.656.959.163.367.9
SWE Verified (Resolved)73.778.679.073.679.480.6
SWE Pro (Resolved)49.152.352.652.154.455.4
SWE Multilingual (Resolved)69.770.273.369.874.176.2
BrowseComp (Pass@1)-53.573.2-80.483.4
HLE w/ tools (Pass@1)-40.345.1-44.748.2
MCPAtlas (Pass@1)64.067.469.069.474.273.6
GDPval-AA (Elo)--1395--1554
Toolathlon (Pass@1)40.743.547.846.349.051.8

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#chat-template

聊天模板

本次发布不包含 Jinja 格式的聊天模板。我们提供了一个专用的 encoding 文件夹,其中包含 Python 脚本和测试用例,演示如何将以 OpenAI 兼容格式编码的消息转换为模型的输入字符串,以及如何解析模型的文本输出。请参考 encoding (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark/blob/main/encoding/README.md) 文件夹获取完整文档。

简要示例:

from encoding_dsv4 import encode_messages, parse_message_from_completion_text

messages = [
    {"role": "user", "content": "hello"},
    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},
    {"role": "user", "content": "1+1=?"}
]

# messages -> string
prompt = encode_messages(messages, thinking_mode="thinking")

# string -> tokens
import transformers
tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Pro")
tokens = tokenizer.encode(prompt)

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#how-to-run-locally

本地运行方法

请参考 inference (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark/blob/main/inference/README.md) 文件夹,获取在本地运行 DeepSeek-V4 的详细说明,包括模型权重转换和交互式聊天演示。

对于本地部署,我们建议将采样参数设置为 temperature = 1.0, top_p = 1.0。对于 Think Max 推理模式,我们建议将上下文窗口设置为至少 384K token。

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#license

许可证

此仓库和模型权重根据 MIT 许可证 (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark/blob/main/LICENSE) 授权。

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#citation

引用

@misc{deepseekai2026deepseekv4,
      title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence},
      author={DeepSeek-AI},
      year={2026},
}

https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark#contact

联系方式

如有任何问题,请提出 issue 或通过 [email protected] (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-DSpark/blob/main/[email protected]) 联系我们。

相似文章

deepseek-ai/DeepSeek-V4-Pro

Hugging Face Models Trending

DeepSeek 发布了 V4-Pro 和 V4-Flash,这些混合专家模型采用混合注意力机制和 Muon 优化器,支持百万 token 级上下文。

deepseek-ai/DeepSeek-V4-Flash

Hugging Face Models Trending

DeepSeek 发布 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro,新一代 MoE 语言模型,支持 100 万 token 上下文,效率和性能均有提升。

deepseek-ai/DeepSeek-V4-Pro-DSpark

Hugging Face Models Trending

DeepSeek 发布了其 V4 系列的预览版本,包括 DeepSeek-V4-Pro(1.6T 参数,49B 激活)和 DeepSeek-V4-Flash(284B 参数,13B 激活),两者均支持百万 Token 上下文,并采用混合注意力、流形约束超连接和 Muon 优化器。

DeepSpec - deepseek-ai 集合

Reddit r/LocalLLaMA

DeepSeek AI 在 Hugging Face 上发布了 DeepSpec 集合,包含基于 Qwen3 和 Gemma4 的各种尺寸(1B-3B)的推测解码模型(dspark, dflash, eagle3)。