deepseek-ai/DeepSeek-V4-Pro-DSpark

Hugging Face Models Trending 2026/06/27 03:02 模型

deepseek mixture-of-experts long-context million-tokens open-source speculative-decoding

摘要

DeepSeek 发布了其 V4 系列的预览版本，包括 DeepSeek-V4-Pro（1.6T 参数，49B 激活）和 DeepSeek-V4-Flash（284B 参数，13B 激活），两者均支持百万 Token 上下文，并采用混合注意力、流形约束超连接和 Muon 优化器。

任务：文本生成标签：transformers, safetensors, deepseek_v4, 文本生成, arxiv:2606.19348, license:mit, endpoints_compatible, 8-bit, fp8, region:us

查看原文

查看缓存全文

缓存时间: 2026/06/27 17:18

deepseek-ai/DeepSeek-V4-Pro-DSpark · Hugging Face Source: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark#deepseek-v4-towards-highly-efficient-million-token-context-intelligenceDeepSeek-V4：迈向百万Token超高效上下文智能 DeepSeek-V4 — 主页 (https://www.deepseek.com/)对话 (https://chat.deepseek.com/) Hugging Face (https://huggingface.co/deepseek-ai)Twitter 关注 (https://twitter.com/deepseek_ai) 许可证 (https://huggingface.co/deepseek-ai/LICENSE) 技术报告👁️ (https://arxiv.org/abs/2606.19348) 注意：DeepSeek-V4-Pro-DSpark并非一个全新的模型。它是在相同检查点基础上附加了一个投机解码模块。`inference` (https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark/blob/main/inference/README.md)文件夹中提供了一个最小推理示例。更多详情，请参考：https://github.com/deepseek-ai/DeepSpec ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark#introduction引言我们发布DeepSeek-V4系列的预览版本，包括两个强大的混合专家（MoE）语言模型 —— 拥有1.6T参数（激活49B）的DeepSeek-V4-Pro和拥有284B参数（激活13B）的DeepSeek-V4-Flash —— 两者均支持一百万Token的上下文长度。DeepSeek-V4 系列在架构和优化方面引入了多项关键升级： 1. 混合注意力架构：我们设计了一种结合压缩稀疏注意力（CSA）和高度压缩注意力（HCA）的混合注意力机制，显著提升了长上下文效率。在1M Token上下文中，相比DeepSeek-V3，DeepSeek-V4-Pro仅需27%的单Token推理FLOPs和10%的KV缓存。2. 流形约束超连接（mHC）：我们引入mHC来增强传统的残差连接，提高了跨层信号传播的稳定性，同时保持了模型的表达能力。3. Muon优化器：我们采用Muon优化器以实现更快的收敛和更高的训练稳定性。我们在超过32T个多样且高质量的Token上对这两个模型进行了预训练，随后进行了全面的后训练流程。后训练采用两阶段范式：首先通过SFT和基于GRPO的RL独立培养特定领域专家，然后通过同策略蒸馏进行统一模型整合，将不同领域的专长集成到单一模型中。 DeepSeek-V4-Pro-Max，作为DeepSeek-V4-Pro的最大推理努力模式，显著提升了开源模型的知识能力，稳固地确立了其作为当前最佳开源模型的地位。它在编程基准测试中达到了顶级性能，并在推理和代理任务上显著缩小了与领先闭源模型的差距。同时，DeepSeek-V4-Flash-Max在拥有更大思考预算时，能达到与Pro版本相当的推理性能，但因其较小的参数规模，在纯知识任务和最复杂的代理工作流上自然稍逊一筹。 ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark#model-downloads模型下载 *FP4 + FP8 混合：MoE专家参数采用FP4精度；大部分其他参数采用FP8。 ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark#evaluation-results评估结果 ### https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark#base-model基座模型基准测试 (指标)# ShotsDeepSeek-V3.2-BaseDeepSeek-V4-Flash-BaseDeepSeek-V4-Pro-Base架构-MoEMoEMoE# 激活参数量-37B13B49B# 总参数量-671B284B1.6T世界知识AGIEval (EM)0-shot80.182.683.1MMLU (EM)5-shot87.888.790.1MMLU-Redux (EM)5-shot87.589.490.8MMLU-Pro (EM)5-shot65.568.373.5MMMLU (EM)5-shot87.988.890.3C-Eval (EM)5-shot90.492.193.1CMMLU (EM)5-shot88.990.490.8MultiLoKo (EM)5-shot38.742.251.1Simple-QA verified (EM)25-shot28.330.155.2SuperGPQA (EM)5-shot45.046.553.9FACTS Parametric (EM)25-shot27.133.962.6TriviaQA (EM)5-shot83.382.885.6语言与推理BBH (EM)3-shot87.686.987.5DROP (F1)1-shot88.288.688.7HellaSwag (EM)0-shot86.485.788.0WinoGrande (EM)0-shot78.979.581.5CLUEWSC (EM)5-shot83.582.285.2代码与数学BigCodeBench (Pass@1)3-shot63.956.859.2HumanEval (Pass@1)0-shot62.869.576.8GSM8K (EM)8-shot91.190.892.6MATH (EM)4-shot60.557.464.5MGSM (EM)8-shot81.385.784.4CMath (EM)3-shot92.693.690.9长上下文LongBench-V2 (EM)1-shot40.244.751.5 ### https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark#instruct-model指令模型 DeepSeek-V4-Pro 和 DeepSeek-V4-Flash 均支持三种推理努力模式：推理模式特性典型用例响应格式非思考模式快速、直觉性响应日常任务、低风险决策`<summary>`思考高模式有意识的逻辑分析，速度较慢但更准确复杂问题解决、计划`<thinking>`
`思考最大模式将推理发挥到极致探索模型推理能力的边界特殊系统提示 +` `<summary>` #### https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark#deepseek-v4-pro-max-vs-frontier-modelsDeepSeek-V4-Pro-Max 与前沿模型对比基准测试 (指标)Opus-4.6 MaxGPT-5.4 xHighGemini-3.1-Pro HighK2.6 ThinkingGLM-5.1 ThinkingDS-V4-Pro Max知识与推理MMLU-Pro (EM)89.187.591.087.186.087.5SimpleQA-Verified (Pass@1)46.245.375.636.938.157.9Chinese-SimpleQA (Pass@1)76.476.885.975.975.084.4GPQA Diamond (Pass@1)91.393.094.390.586.290.1HLE (Pass@1)40.039.844.436.434.737.7LiveCodeBench (Pass@1)88.8-91.789.6-93.5Codeforces (Rating)-31683052–3206HMMT 2026 Feb (Pass@1)96.297.794.792.789.495.2IMOAnswerBench (Pass@1)75.391.481.086.083.889.8Apex (Pass@1)34.554.160.924.011.538.3Apex Shortlist (Pass@1)85.978.189.175.572.490.2长上下文MRCR 1M (MMR)92.9-76.3–83.5CorpusQA 1M (ACC)71.7-53.8–62.0代理能力Terminal Bench 2.0 (Acc)65.475.168.566.763.567.9SWE Verified (Resolved)80.8-80.680.2-80.6SWE Pro (Resolved)57.357.754.258.658.455.4SWE Multilingual (Resolved)77.5–76.773.376.2BrowseComp (Pass@1)83.782.785.983.279.383.4HLE w/ tools (Pass@1)53.152.051.654.050.448.2GDPval-AA (Elo)161916741314148215351554MCP Atlas Public (Pass@1)73.867.269.266.671.873.6Toolathlon (Pass@1)47.254.648.850.040.751.8 #### https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark#comparison-across-modes各模式对比基准测试 (指标)V4-Flash 非思考V4-Flash 思考高V4-Flash 思考最大V4-Pro 非思考V4-Pro 思考高V4-Pro 思考最大知识与推理MMLU-Pro (EM)83.086.486.282.987.187.5SimpleQA-Verified (Pass@1)23.128.934.145.046.257.9Chinese-SimpleQA (Pass@1)71.573.278.975.877.784.4GPQA Diamond (Pass@1)71.287.488.172.989.190.1HLE (Pass@1)8.129.434.87.734.537.7LiveCodeBench (Pass@1)55.288.491.656.889.893.5Codeforces (Rating)-28163052-29193206HMMT 2026 Feb (Pass@1)40.891.994.831.794.095.2IMOAnswerBench (Pass@1)41.985.188.435.388.089.8Apex (Pass@1)1.019.133.00.427.438.3Apex Shortlist (Pass@1)9.372.185.79.285.590.2长上下文MRCR 1M (MMR)37.576.978.744.783.383.5CorpusQA 1M (ACC)15.559.360.535.656.562.0代理能力Terminal Bench 2.0 (Acc)49.156.656.959.163.367.9SWE Verified (Resolved)73.778.679.073.679.480.6SWE Pro (Resolved)49.152.352.652.154.455.4SWE Multilingual (Resolved)69.770.273.369.874.176.2BrowseComp (Pass@1)-53.573.2-80.483.4HLE w/ tools (Pass@1)-40.345.1-44.748.2MCP Atlas (Pass@1)64.067.469.069.474.273.6GDPval-AA (Elo)–1395–1554Toolathlon (Pass@1)40.743.547.846.349.051.8 ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark#chat-template聊天模板本次发布不包含 Jinja 格式的聊天模板。我们提供了一个专门的`encoding`文件夹，其中包含 Python 脚本和测试用例，演示如何将 OpenAI 兼容格式的消息编码为模型的输入字符串，以及如何解析模型的文本输出。请参阅`encoding` (https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark/blob/main/encoding/README.md)文件夹获取完整文档。一个简短的示例： python from encoding_dsv4 import encode_messages, parse_message_from_completion_text messages = [ {"role": "user", "content": "你好"}, {"role": "assistant", "content": "你好！我是DeepSeek。", "reasoning_content": "正在思考..."}, {"role": "user", "content": "1+1=?"} ] # 消息 -> 字符串 prompt = encode_messages(messages, thinking_mode="thinking") # 字符串 -> Token import transformers tokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V4-Pro") tokens = tokenizer.encode(prompt) ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark#how-to-run-locally如何在本地运行请参考`inference` (https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark/blob/main/inference/README.md)文件夹，了解在本地运行DeepSeek-V4的详细说明，包括模型权重转换和交互式聊天演示。对于本地部署，我们建议将采样参数设置为`temperature = 1.0, top_p = 1.0`。对于“思考最大”推理模式，建议将上下文窗口设置为至少384K Token。 ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark#license许可证此仓库和模型权重基于MIT许可证 (https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark/blob/main/LICENSE)发布。 ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark#citation引用 `bibtex @misc{deepseekai2026deepseekv4, title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence}, author={DeepSeek-AI}, year={2026}, }` ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-DSpark#contact联系方式如果您有任何问题，请提交Issue或邮件联系我们[email protected] (mailto:[email protected])。

相似文章

deepseek-ai/DeepSeek-V4-Pro

Hugging Face Models Trending

DeepSeek 发布了 V4-Pro 和 V4-Flash，这些混合专家模型采用混合注意力机制和 Muon 优化器，支持百万 token 级上下文。

deepseek-ai/DeepSeek-V4-Flash-DSpark

Hugging Face Models Trending

DeepSeek 发布 V4 系列混合专家语言模型（Pro 1.6T/49B 激活参数，Flash 284B/13B 激活参数），支持百万 token 上下文，采用混合注意力和推测解码，声称具有最佳开源模型性能。

deepseek-ai/DeepSeek-V4-Flash

Hugging Face Models Trending

DeepSeek 发布 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro，新一代 MoE 语言模型，支持 100 万 token 上下文，效率和性能均有提升。

DeepSeek-V4：百万Token上下文，真正可供智能体使用

Hugging Face Blog

DeepSeek发布V4，这是一款MoE模型，拥有100万Token上下文窗口，通过混合注意力机制和降低KV缓存需求，针对智能体任务进行了优化。

@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark，一种新的投机解码方法，将吞吐量提升51%至400%！…

X AI KOLs Timeline

DeepSeek发布了DSpark，一种投机解码方法，可将V4 Flash和Pro的吞吐量提升51%至400%，同时还开源了DeepSpec代码库，用于训练和评估草稿模型。

相似文章

deepseek-ai/DeepSeek-V4-Pro

deepseek-ai/DeepSeek-V4-Flash-DSpark

deepseek-ai/DeepSeek-V4-Flash

DeepSeek-V4：百万Token上下文，真正可供智能体使用

@danielhanchen: DeepSeek刚刚发布了用于V4 Flash和Pro的DSpark，一种新的投机解码方法，将吞吐量提升51%至400%！…

提交意见反馈