deepseek-ai/DeepSeek-V4-Flash

Hugging Face Models Trending 模型

摘要

DeepSeek 发布 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro,新一代 MoE 语言模型,支持 100 万 token 上下文,效率和性能均有提升。

任务:文本生成 标签:transformers, safetensors, deepseek_v4, 文本生成, 对话, 许可证:mit, 评测结果, 端点兼容, 8-bit, fp8, 区域:us
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:58

deepseek-ai/DeepSeek-V4-Flash · Hugging Face 来源:https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash#deepseek-v4-towards-highly-efficient-million-token-context-intelligenceDeepSeek-V4:迈向高效的百万Token上下文智能 DeepSeek-V4 — 主页 (https://www.deepseek.com/)对话 (https://chat.deepseek.com/) Hugging Face (https://huggingface.co/deepseek-ai)Twitter 关注 (https://twitter.com/deepseek_ai) 许可证 (https://huggingface.co/deepseek-ai/LICENSE) 技术报告👁️ (https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf) ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash#introduction简介 我们发布了DeepSeek-V4系列的预览版本,包括两个强大的混合专家(MoE)语言模型——DeepSeek-V4-Pro,拥有1.6T参数(49B激活),以及DeepSeek-V4-Flash,拥有284B参数(13B激活)——两者均支持一百万Token的上下文长度。 DeepSeek-V4系列在架构和优化方面进行了多项关键升级: 1. 混合注意力架构:我们设计了一种混合注意力机制,结合压缩稀疏注意力(CSA)和重度压缩注意力(HCA),以大幅提升长上下文效率。在1M Token上下文设置中,DeepSeek-V4-Pro相比DeepSeek-V3.2仅需27%的单Token推理FLOPs10%的KV缓存。 2. 流形约束超连接(mHC):我们引入mHC来强化传统的残差连接,增强跨层信号传播的稳定性,同时保持模型表达能力。 3. Muon优化器:我们采用Muon优化器以实现更快的收敛速度和更高的训练稳定性。 我们在超过32T的多样化高质量Token上对两个模型进行了预训练,随后进行了完善的后训练流程。后训练采用两阶段范式:首先独立培养领域特定专家(通过SFT和GRPO强化学习),然后通过策略内蒸馏进行统一模型整合,将不同领域的独特能力融合到单一模型中。 DeepSeek-V4-Pro-Max,即DeepSeek-V4-Pro的最大推理力度模式,显著提升了开源模型的知识能力,稳固确立了其作为当今最佳开源模型的地位。它在编程基准测试中达到了顶级性能,并在推理和智能体任务上显著缩小了与领先闭源模型的差距。 与此同时,DeepSeek-V4-Flash-Max在给予更大思考预算时能达到与Pro版本相当的推理性能,尽管其较小的参数规模使其在纯知识任务和最复杂的智能体工作流上自然略逊一筹。 ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash#model-downloads模型下载 *FP4 + FP8 混合:MoE专家参数使用FP4精度;大多数其他参数使用FP8精度。 ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash#evaluation-results评测结果 ### https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash#base-model基础模型 基准测试(指标)# 样本数DeepSeek-V3.2-BaseDeepSeek-V4-Flash-BaseDeepSeek-V4-Pro-Base架构-MoEMoEMoE# 激活参数-37B13B49B# 总参数-671B284B1.6T世界知识AGIEval(EM)0样本80.182.683.1MMLU(EM)5样本87.888.790.1MMLU-Redux(EM)5样本87.589.490.8MMLU-Pro(EM)5样本65.568.373.5MMMLU(EM)5样本87.988.890.3C-Eval(EM)5样本90.492.193.1CMMLU(EM)5样本88.990.490.8MultiLoKo(EM)5样本38.742.251.1Simple-QA verified(EM)25样本28.330.155.2SuperGPQA(EM)5样本45.046.553.9FACTS Parametric(EM)25样本27.133.962.6TriviaQA(EM)5样本83.382.885.6****语言与推理BBH(EM)3样本87.686.987.5DROP(F1)1样本88.288.688.7HellaSwag(EM)0样本86.485.788.0WinoGrande(EM)0样本78.979.581.5CLUEWSC(EM)5样本83.582.285.2****代码与数学BigCodeBench(Pass@1)3样本63.956.859.2HumanEval(Pass@1)0样本62.869.576.8GSM8K(EM)8样本91.190.892.6MATH(EM)4样本60.557.464.5MGSM(EM)8样本81.385.784.4CMath(EM)3样本92.693.690.9长上下文LongBench-V2(EM)1样本40.244.751.5 ### https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash#instruct-model指令模型 DeepSeek-V4-Pro和DeepSeek-V4-Flash均支持三种推理力度模式: 推理模式特点典型应用场景回复格式Non-think快速、直觉式响应日常任务、低风险决策summaryThink High有意识的逻辑分析,较慢但更精准复杂问题解决、规划thinkingsummaryThink Max将推理推向极致探索模型推理能力边界特殊系统提示 +thinkingsummary #### https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash#deepseek-v4-pro-max-vs-frontier-modelsDeepSeek\-V4\-Pro\-Max 与前沿模型对比 基准测试(指标)Opus\-4.6 MaxGPT\-5.4 xHighGemini\-3.1\-Pro HighK2.6 ThinkingGLM\-5.1 ThinkingDS\-V4\-Pro Max**知识与推理**MMLU\-Pro(EM)89.187.5**91.0**87.186.087.5SimpleQA\-Verified(Pass@1)46.245.3**75.6**36.938.157.9Chinese\-SimpleQA(Pass@1)76.476.8**85.9**75.975.084.4GPQA Diamond(Pass@1)91.393.0**94.3**90.586.290.1HLE(Pass@1)40.039.8**44.4**36.434.737.7LiveCodeBench(Pass@1)88.8\-91.789.6\-**93.5**Codeforces(Rating)\-31683052\-\-**3206**HMMT 2026 Feb(Pass@1)96.2**97.7**94.792.789.495.2IMOAnswerBench(Pass@1)75.3**91.4**81.086.083.889.8Apex(Pass@1)34.554.1**60.9**24.011.538.3Apex Shortlist(Pass@1)85.978.189.175.572.4**90.2****长上下文**MRCR 1M(MMR)**92.9**\-76.3\-\-83.5CorpusQA 1M(ACC)**71.7**\-53.8\-\-62.0**智能体**Terminal Bench 2.0(Acc)65.4**75.1**68.566.763.567.9SWE Verified(Resolved)**80.8**\-80.680.2\-80.6SWE Pro(Resolved)57.357.754.2**58.6**58.455.4SWE Multilingual(Resolved)**77.5**\-\-76.773.376.2BrowseComp(Pass@1)83.782.7**85.9**83.279.383.4HLE w/ tools(Pass@1)53.152.051.6**54.0**50.448.2GDPval\-AA(Elo)1619**1674**1314148215351554MCPAtlas Public(Pass@1)**73.8**67.269.266.671.873.6Toolathlon(Pass@1)47.2**54.6**48.850.040.751.8 #### https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash#comparison-across-modes各模式对比 基准测试(指标)V4\-Flash Non\-ThinkV4\-Flash HighV4\-Flash MaxV4\-Pro Non\-ThinkV4\-Pro HighV4\-Pro Max**知识与推理**MMLU\-Pro(EM)83.086.486.282.987.1**87.5**SimpleQA\-Verified(Pass@1)23.128.934.145.046.2**57.9**Chinese\-SimpleQA(Pass@1)71.573.278.975.877.7**84.4**GPQA Diamond(Pass@1)71.287.488.172.989.1**90.1**HLE(Pass@1)8.129.434.87.734.5**37.7**LiveCodeBench(Pass@1)55.288.491.656.889.8**93.5**Codeforces(Rating)\-28163052\-2919**3206**HMMT 2026 Feb(Pass@1)40.891.994.831.794.0**95.2**IMOAnswerBench(Pass@1)41.985.188.435.388.0**89.8**Apex(Pass@1)1.019.133.00.427.4**38.3**Apex Shortlist(Pass@1)9.372.185.79.285.5**90.2****长上下文**MRCR 1M(MMR)37.576.978.744.783.3**83.5**CorpusQA 1M(ACC)15.559.360.535.656.5**62.0****智能体**Terminal Bench 2.0(Acc)49.156.656.959.163.3**67.9**SWE Verified(Resolved)73.778.679.073.679.4**80.6**SWE Pro(Resolved)49.152.352.652.154.4**55.4**SWE Multilingual(Resolved)69.770.273.369.874.1**76.2**BrowseComp(Pass@1)\-53.573.2\-80.4**83.4**HLE w/ tools(Pass@1)\-40.345.1\-44.7**48.2**MCPAtlas(Pass@1)64.067.469.069.4**74.2**73.6GDPval\-AA(Elo)\-\-1395\-\-**1554**Toolathlon(Pass@1)40.743.547.846.349.0**51.8** ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash#chat-template对话模板 本次发布不包含Jinja格式的对话模板。相反,我们提供了一个专用的`encoding`文件夹,其中包含Python脚本和测试用例,演示如何将OpenAI兼容格式的消息编码为模型的输入字符串,以及如何解析模型的文本输出。请参阅`encoding` (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash/blob/main/encoding/README.md)文件夹获取完整文档。 简要示例: from encoding_dsv4 import encode_messages, parse_message_from_completion_text messages = [ {“role”: “user”, “content”: “hello”}, {“role”: “assistant”, “content”: “Hello! I am DeepSeek.”, “reasoning_content”: “thinking…”}, {“role”: “user”, “content”: “1+1=?”} ] # messages -> string prompt = encode_messages(messages, thinking_mode=“thinking”) # string -> tokens import transformers tokenizer = transformers.AutoTokenizer.from_pretrained(“deepseek-ai/DeepSeek-V4-Pro”) tokens = tokenizer.encode(prompt) ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash#how-to-run-locally本地运行指南 请参阅inference (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash/blob/main/inference/README.md)文件夹获取本地运行DeepSeek\-V4的详细说明,包括模型权重转换和交互式对话演示。 对于本地部署,我们建议将采样参数设置为`temperature = 1.0, top_p = 1.0`。 对于Think Max推理模式,我们建议将上下文窗口设置为至少**384K**Token。 ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash#license许可证 本仓库和模型权重采用MIT许可证 (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash/blob/main/LICENSE)授权。 ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash#citation引用 @misc{deepseekai2026deepseekv4, title={DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence}, author={DeepSeek-AI}, year={2026}, } `` ## https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash#contact联系方式 如有任何问题,请提交issue或联系我们:[email protected] (https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash/blob/main/[email protected])。

相似文章

deepseek-ai/DeepSeek-V4-Pro

Hugging Face Models Trending

DeepSeek 发布了 V4-Pro 和 V4-Flash,这些混合专家模型采用混合注意力机制和 Muon 优化器,支持百万 token 级上下文。

Deepseek V4的百万上下文窗口:临界点

Reddit r/LocalLLaMA

对Deepseek V4在多个生产代码库上的百万token上下文窗口的详细评估显示,在150-250k token时性能最佳,超过300k后性能下降,推理模式下延迟显著。该模型在未知任务上表现出较高的幻觉率,生产环境中需要验证层。