DeepSeek-V4：百万Token上下文，真正可供智能体使用

Hugging Face Blog 2026/04/24 00:00 模型

deepseek large-language-models agents long-context efficient-inference open-source

摘要

DeepSeek发布V4，这是一款MoE模型，拥有100万Token上下文窗口，通过混合注意力机制和降低KV缓存需求，针对智能体任务进行了优化。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/08 09:02

DeepSeek-V4：百万 token 上下文，真正可供 Agent 使用

来源：https://huggingface.co/blog/deepseekv4

返回文章

ben burtenshaw 的头像

DeepSeek 今日发布了 V4。Hub 上有两个 MoE checkpoint：DeepSeek-V4-Pro（总参数量 1.6T，激活参数 49B）和 DeepSeek-V4-Flash（总参数量 284B，激活参数 13B）。两者均支持 1M token 的上下文窗口。

基准测试数据有竞争力，但并非 SOTA。这并不重要。真正的创新在于 DeepSeek V4 如何为高效支持长上下文而设计，因此成为 Agent 任务的最佳候选之一，专注于长时运行的 Agent 工作负载。

如今运行前沿开放模型作为 Agent，会以可预测的方式崩溃。模型停止响应。你重新提示。trace 超出上下文预算，或者 KV 缓存占满 GPU，或者在长任务中途工具调用往返性能下降。

V4 正是为解决这些已知故障而构建，并为社区指明方向。本文涵盖三个方面：架构层面如何差异化设计以降低长上下文推理成本、在此基础上叠加的 Agent 专属后训练决策，以及论文中有助于理解这些变化的要点。

Agent 的 KV 缓存难题

1M 上下文窗口只是容量，不是性能。能否真正使用它，取决于在该深度下每次前向传播的代价。

对于运行长工具使用轨迹的 Agent（SWE-bench 任务、多步浏览会话、包含数百命令的终端会话），每个工具结果都会追加到上下文中，而每个后续 token 都要为之前所有内容支付完整的注意力计算成本。

两个数字至关重要：单 token 推理 FLOPs 和 KV 缓存大小。两者都随序列长度增长。

在 1M token 时，DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%，因此在相同硬件上运行更快。KV 缓存内存也仅为 10%。V4-Flash 进一步降低：FLOPs 为 10%，KV 缓存为 7%。

若与已成熟架构如分组查询注意力（8 头，常规 bfloat16 存储）相比，DeepSeek V4 仅需约 2% 的缓存大小。这使得部署超大规模上下文处理变得容易得多。

图 1：DeepSeek-V4 技术报告中的基准对比（左），推理 FLOPs 和 KV 缓存随序列长度变化（右）

图 1：基准对比（左），每 token FLOPs 和累积 KV 缓存随序列长度变化（右）

混合注意力：CSA 与 HCA

效率提升来自将注意力拆分为两种机制，并在不同层之间交错使用。

压缩稀疏注意力（CSA） 通过 softmax 门控池化和可学习位置偏置，将 KV 条目沿序列维度压缩 4 倍。一个 lightning indexer（FP4，ReLU 评分的多头点积）为每个查询选取 top-k 压缩块。它继承了 DeepSeek V3.2 中 DeepSeek Sparse Attention 的稀疏选择思想，但在已经比原序列短 4 倍的块上运行。indexer 的搜索空间随之缩小。

图 3：压缩稀疏注意力，展示压缩器、在压缩块上的 lightning indexer，以及滑动窗口分支

图 3：CSA。压缩器将每 4 个 token 折叠为一个压缩 KV 条目。lightning indexer 为每个查询选取 top-k 压缩块。滑动窗口分支处理最近的未压缩 token。

重度压缩注意力（HCA） 将 KV 条目压缩 128 倍，并放弃稀疏选择。每个查询密集地关注到每个压缩块。压缩后的序列足够短，使得密集注意力计算代价很低。

图 4：重度压缩注意力，128 倍压缩，在压缩块上使用密集 MQA

图 4：HCA。更重的压缩器（128 倍 vs 4 倍），随后在压缩流上进行密集注意力，同样有滑动窗口分支处理近期 token。

层与层之间在 CSA 和 HCA 之间交替。不同层承载不同的注意力模式，在所有层强制使用单一机制会浪费容量。在 V4-Pro 的 61 层堆叠中，层 0–1 为 HCA，层 2–60 交替 CSA 和 HCA，末尾的 MTP 块仅使用滑动窗口。

两条路径对大部分 KV 条目使用 FP8 存储，仅 RoPE 维度使用 BF16。CSA 内部的 lightning indexer 以 FP4 运行。这些存储选择与压缩比相乘，产生了 2% 的 KV 缓存数据。

图 2：整体架构，展示 embedding、混合 CSA/HCA 注意力、DeepSeekMoE、流形约束超连接

图 2：整体架构。注意力层在 CSA 和 HCA 之间交替。前馈层使用 DeepSeekMoE。残差连接被替换为流形约束超连接（mHC）。

Agent 场景有何变化

高效的长上下文注意力对 Agent 工作流是必要条件，但非充分条件。论文描述了三个直接针对 Agent 用例的后训练和基础设施选择。

跨工具调用的交错思考

V3.2 在工具结果轮次之间保留推理 trace，但在新用户消息到达时将其丢弃。对于处理单用户轮次的 Agent，这没问题。但对于多轮 Agent 工作流——用户在 Agent 已链式调用多个工具后发送跟进消息——模型会丢失累积的推理并必须重建状态。

V4 在对话包含工具调用时，跨用户消息边界保留推理内容。模型在所有轮次中保留完整的推理历史，包括跨用户轮次。这允许在长周期 Agent 任务上进行连贯、累积的思维链。

对于无工具的对话场景，旧行为保留：每次轮次时清除推理以保持上下文简洁。

图 7：思考管理，有工具时（上）跨轮次保留推理；无工具时（下）在每个新用户消息时丢弃推理

图 7：有工具时的思考（上）跨所有轮次保留推理。无工具时的思考（下）在每个新用户消息时丢弃推理。

带专用 token 的工具调用 schema

V4 引入了 \|DSML\| 特殊 token 和基于 XML 的工具调用格式。XML 格式相比字符串内嵌 JSON 的工具调用减少了转义失败，这是模型输出嵌套引号内容时的常见故障模式。

该 schema 区分字符串参数（原样传递，string="true"）和结构化参数（以 JSON 传递，string="false"）。这消除了一类 JSON 工具调用格式常遇到的数字和布尔值解析错误。

DSec：为 RL rollout 打造的沙箱

Agent 行为通过与真实工具环境的 RL 对抗训练而成。论文描述了为此目的构建的沙箱基础设施。

DeepSeek Elastic Compute（DSec）是一个 Rust 平台，在一个 Python SDK 后暴露四种执行底层：函数调用、容器、微虚拟机（Firecracker）和完整虚拟机（QEMU）。单个集群运行数十万并发沙箱。

三个 DSec 特性对 Agent 训练至关重要：通过分层 3FS 存储实现快速镜像加载（RL rollout 无需等待容器启动）、支持抢占的轨迹安全重放（中断的训练步骤无需重新运行工具调用即可恢复），以及跨底层的统一 API（训练框架无需重写即可面向函数调用或完整 VM）。

这些基础设施决策支撑了 Agent 基准分数。

Agent 基准测试结果

知识和推理数字有竞争力但不领先。Agent 数字是 V4-Pro-Max 与竞品拉开差距的地方。

DeepSeek-V4-Pro-Max 跨前沿模型基准对比

表 6 Agent 部分的具体数字：

Terminal Bench 2.0：V4-Pro-Max 得分 67.9，领先于 GLM-5.1（63.5）和 K2.6（66.7），落后于 GPT-5.4-xHigh（75.1）和 Gemini-3.1-Pro（68.5）
SWE Verified：80.6 解决率，与 Opus-4.6-Max（80.8）和 Gemini-3.1-Pro（80.6）相差不到 1 分
MCPAtlas Public：73.6，仅次于 Opus-4.6-Max（73.8）
Toolathlon：51.8，领先于 K2.6（50.0）、GLM-5.1（40.7）和 Gemini-3.1-Pro（48.8）

在论文的内部研发编码基准中，30 道涵盖 PyTorch、CUDA、Rust 和 C++ 的精选题目，V4-Pro-Max 达到 67% 通过率，对比 Sonnet 4.5 的 47% 和 Opus 4.5 的 70%。

在对 85 名日常使用 V4-Pro 的 DeepSeek 开发者的调查中，52% 表示它已准备好替代当前主要编码模型，39% 倾向于同意。

长上下文检索数字见图 9。MRCR 8-needle 准确率在 256K token 内保持 0.82 以上，在 1M 时维持 0.59。

图 9：MRCR 8-needle 检索性能，上下文长度至 1M token

图 9：MRCR 8-needle 检索。V4-Pro-Max 在 256K 内保持 0.82 以上，在 1M 时维持 0.59。

如何使用这些模型

Hub 上有四个 checkpoint。Instruct 模型对 MoE expert 权重使用 FP4，其余使用 FP8。Base 模型全程使用 FP8。

deepseek-ai/DeepSeek-V4-Pro（1.6T / 49B 激活，instruct）
deepseek-ai/DeepSeek-V4-Flash（284B / 13B 激活，instruct）
deepseek-ai/DeepSeek-V4-Pro-Base（1.6T / 49B 激活，base）
deepseek-ai/DeepSeek-V4-Flash-Base（284B / 13B 激活，base）

两个 instruct 模型支持三种推理模式：Non-think（快速，无思维链）、Think High（在 `` 块中显式推理）和 Think Max（最大推理努力，需专用系统提示）。Think Max 需要至少 384K token 的上下文窗口。

所有模式的推荐采样参数为 temperature=1.0, top_p=1.0。

V4-Pro 在 SWE Verified、MCPAtlas 和内部研发基准上的数字，使其在 Agent 任务上与前沿闭源模型持平。开放问题是社区的工具框架如何适应 \|DSML\| schema，以及交错思考的收益能否迁移到域外 Agent 框架。

本文图片引自技术报告 DeepSeek_V4.pdf。

DeepSeek-V4：百万Token上下文，真正可供智能体使用

DeepSeek-V4：百万 token 上下文，真正可供 Agent 使用

Agent 的 KV 缓存难题

混合注意力：CSA 与 HCA

Agent 场景有何变化

跨工具调用的交错思考

带专用 token 的工具调用 schema

DSec：为 RL rollout 打造的沙箱

Agent 基准测试结果

如何使用这些模型

相似文章

deepseek-ai/DeepSeek-V4-Flash

deepseek-ai/DeepSeek-V4-Pro

Deepseek V4的百万上下文窗口：临界点

FlashMemory DeepSeek-V4 检索器（GitHub仓库）

DeepSeek V4 完整论文发布：FP4 QAT 技术细节与训练稳定性技巧 [D]

提交意见反馈