DeepSeek-V4:百万Token上下文,真正可供智能体使用
摘要
DeepSeek发布V4,这是一款MoE模型,拥有100万Token上下文窗口,通过混合注意力机制和降低KV缓存需求,针对智能体任务进行了优化。
查看缓存全文
缓存时间: 2026/05/08 09:02
DeepSeek-V4:百万 token 上下文,真正可供 Agent 使用
来源:https://huggingface.co/blog/deepseekv4
ben burtenshaw 的头像
DeepSeek 今日发布了 V4。Hub 上有两个 MoE checkpoint:DeepSeek-V4-Pro(总参数量 1.6T,激活参数 49B)和 DeepSeek-V4-Flash(总参数量 284B,激活参数 13B)。两者均支持 1M token 的上下文窗口。
基准测试数据有竞争力,但并非 SOTA。这并不重要。真正的创新在于 DeepSeek V4 如何为高效支持长上下文而设计,因此成为 Agent 任务的最佳候选之一,专注于长时运行的 Agent 工作负载。
如今运行前沿开放模型作为 Agent,会以可预测的方式崩溃。模型停止响应。你重新提示。trace 超出上下文预算,或者 KV 缓存占满 GPU,或者在长任务中途工具调用往返性能下降。
V4 正是为解决这些已知故障而构建,并为社区指明方向。本文涵盖三个方面:架构层面如何差异化设计以降低长上下文推理成本、在此基础上叠加的 Agent 专属后训练决策,以及论文中有助于理解这些变化的要点。
Agent 的 KV 缓存难题
1M 上下文窗口只是容量,不是性能。能否真正使用它,取决于在该深度下每次前向传播的代价。
对于运行长工具使用轨迹的 Agent(SWE-bench 任务、多步浏览会话、包含数百命令的终端会话),每个工具结果都会追加到上下文中,而每个后续 token 都要为之前所有内容支付完整的注意力计算成本。
两个数字至关重要:单 token 推理 FLOPs 和 KV 缓存大小。两者都随序列长度增长。
在 1M token 时,DeepSeek-V4-Pro 的单 token 推理 FLOPs 仅为 DeepSeek-V3.2 的 27%,因此在相同硬件上运行更快。KV 缓存内存也仅为 10%。V4-Flash 进一步降低:FLOPs 为 10%,KV 缓存为 7%。
若与已成熟架构如分组查询注意力(8 头,常规 bfloat16 存储)相比,DeepSeek V4 仅需约 2% 的缓存大小。这使得部署超大规模上下文处理变得容易得多。
图 1:DeepSeek-V4 技术报告中的基准对比(左),推理 FLOPs 和 KV 缓存随序列长度变化(右)
图 1:基准对比(左),每 token FLOPs 和累积 KV 缓存随序列长度变化(右)
混合注意力:CSA 与 HCA
效率提升来自将注意力拆分为两种机制,并在不同层之间交错使用。
压缩稀疏注意力(CSA) 通过 softmax 门控池化和可学习位置偏置,将 KV 条目沿序列维度压缩 4 倍。一个 lightning indexer(FP4,ReLU 评分的多头点积)为每个查询选取 top-k 压缩块。它继承了 DeepSeek V3.2 中 DeepSeek Sparse Attention 的稀疏选择思想,但在已经比原序列短 4 倍的块上运行。indexer 的搜索空间随之缩小。
图 3:压缩稀疏注意力,展示压缩器、在压缩块上的 lightning indexer,以及滑动窗口分支
图 3:CSA。压缩器将每 4 个 token 折叠为一个压缩 KV 条目。lightning indexer 为每个查询选取 top-k 压缩块。滑动窗口分支处理最近的未压缩 token。
重度压缩注意力(HCA) 将 KV 条目压缩 128 倍,并放弃稀疏选择。每个查询密集地关注到每个压缩块。压缩后的序列足够短,使得密集注意力计算代价很低。
图 4:重度压缩注意力,128 倍压缩,在压缩块上使用密集 MQA
图 4:HCA。更重的压缩器(128 倍 vs 4 倍),随后在压缩流上进行密集注意力,同样有滑动窗口分支处理近期 token。
层与层之间在 CSA 和 HCA 之间交替。不同层承载不同的注意力模式,在所有层强制使用单一机制会浪费容量。在 V4-Pro 的 61 层堆叠中,层 0–1 为 HCA,层 2–60 交替 CSA 和 HCA,末尾的 MTP 块仅使用滑动窗口。
两条路径对大部分 KV 条目使用 FP8 存储,仅 RoPE 维度使用 BF16。CSA 内部的 lightning indexer 以 FP4 运行。这些存储选择与压缩比相乘,产生了 2% 的 KV 缓存数据。
图 2:整体架构,展示 embedding、混合 CSA/HCA 注意力、DeepSeekMoE、流形约束超连接
图 2:整体架构。注意力层在 CSA 和 HCA 之间交替。前馈层使用 DeepSeekMoE。残差连接被替换为流形约束超连接(mHC)。
Agent 场景有何变化
高效的长上下文注意力对 Agent 工作流是必要条件,但非充分条件。论文描述了三个直接针对 Agent 用例的后训练和基础设施选择。
跨工具调用的交错思考
V3.2 在工具结果轮次之间保留推理 trace,但在新用户消息到达时将其丢弃。对于处理单用户轮次的 Agent,这没问题。但对于多轮 Agent 工作流——用户在 Agent 已链式调用多个工具后发送跟进消息——模型会丢失累积的推理并必须重建状态。
V4 在对话包含工具调用时,跨用户消息边界保留推理内容。模型在所有轮次中保留完整的推理历史,包括跨用户轮次。这允许在长周期 Agent 任务上进行连贯、累积的思维链。
对于无工具的对话场景,旧行为保留:每次轮次时清除推理以保持上下文简洁。
图 7:思考管理,有工具时(上)跨轮次保留推理;无工具时(下)在每个新用户消息时丢弃推理
图 7:有工具时的思考(上)跨所有轮次保留推理。无工具时的思考(下)在每个新用户消息时丢弃推理。
带专用 token 的工具调用 schema
V4 引入了 \|DSML\| 特殊 token 和基于 XML 的工具调用格式。XML 格式相比字符串内嵌 JSON 的工具调用减少了转义失败,这是模型输出嵌套引号内容时的常见故障模式。
该 schema 区分字符串参数(原样传递,string="true")和结构化参数(以 JSON 传递,string="false")。这消除了一类 JSON 工具调用格式常遇到的数字和布尔值解析错误。
DSec:为 RL rollout 打造的沙箱
Agent 行为通过与真实工具环境的 RL 对抗训练而成。论文描述了为此目的构建的沙箱基础设施。
DeepSeek Elastic Compute(DSec)是一个 Rust 平台,在一个 Python SDK 后暴露四种执行底层:函数调用、容器、微虚拟机(Firecracker)和完整虚拟机(QEMU)。单个集群运行数十万并发沙箱。
三个 DSec 特性对 Agent 训练至关重要:通过分层 3FS 存储实现快速镜像加载(RL rollout 无需等待容器启动)、支持抢占的轨迹安全重放(中断的训练步骤无需重新运行工具调用即可恢复),以及跨底层的统一 API(训练框架无需重写即可面向函数调用或完整 VM)。
这些基础设施决策支撑了 Agent 基准分数。
Agent 基准测试结果
知识和推理数字有竞争力但不领先。Agent 数字是 V4-Pro-Max 与竞品拉开差距的地方。
表 6 Agent 部分的具体数字:
- Terminal Bench 2.0:V4-Pro-Max 得分 67.9,领先于 GLM-5.1(63.5)和 K2.6(66.7),落后于 GPT-5.4-xHigh(75.1)和 Gemini-3.1-Pro(68.5)
- SWE Verified:80.6 解决率,与 Opus-4.6-Max(80.8)和 Gemini-3.1-Pro(80.6)相差不到 1 分
- MCPAtlas Public:73.6,仅次于 Opus-4.6-Max(73.8)
- Toolathlon:51.8,领先于 K2.6(50.0)、GLM-5.1(40.7)和 Gemini-3.1-Pro(48.8)
在论文的内部研发编码基准中,30 道涵盖 PyTorch、CUDA、Rust 和 C++ 的精选题目,V4-Pro-Max 达到 67% 通过率,对比 Sonnet 4.5 的 47% 和 Opus 4.5 的 70%。
在对 85 名日常使用 V4-Pro 的 DeepSeek 开发者的调查中,52% 表示它已准备好替代当前主要编码模型,39% 倾向于同意。
长上下文检索数字见图 9。MRCR 8-needle 准确率在 256K token 内保持 0.82 以上,在 1M 时维持 0.59。
图 9:MRCR 8-needle 检索性能,上下文长度至 1M token
图 9:MRCR 8-needle 检索。V4-Pro-Max 在 256K 内保持 0.82 以上,在 1M 时维持 0.59。
如何使用这些模型
Hub 上有四个 checkpoint。Instruct 模型对 MoE expert 权重使用 FP4,其余使用 FP8。Base 模型全程使用 FP8。
- deepseek-ai/DeepSeek-V4-Pro(1.6T / 49B 激活,instruct)
- deepseek-ai/DeepSeek-V4-Flash(284B / 13B 激活,instruct)
- deepseek-ai/DeepSeek-V4-Pro-Base(1.6T / 49B 激活,base)
- deepseek-ai/DeepSeek-V4-Flash-Base(284B / 13B 激活,base)
两个 instruct 模型支持三种推理模式:Non-think(快速,无思维链)、Think High(在 `` 块中显式推理)和 Think Max(最大推理努力,需专用系统提示)。Think Max 需要至少 384K token 的上下文窗口。
所有模式的推荐采样参数为 temperature=1.0, top_p=1.0。
V4-Pro 在 SWE Verified、MCPAtlas 和内部研发基准上的数字,使其在 Agent 任务上与前沿闭源模型持平。开放问题是社区的工具框架如何适应 \|DSML\| schema,以及交错思考的收益能否迁移到域外 Agent 框架。
本文图片引自技术报告 DeepSeek_V4.pdf。
相似文章
deepseek-ai/DeepSeek-V4-Flash
DeepSeek 发布 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro,新一代 MoE 语言模型,支持 100 万 token 上下文,效率和性能均有提升。
deepseek-ai/DeepSeek-V4-Pro
DeepSeek 发布了 V4-Pro 和 V4-Flash,这些混合专家模型采用混合注意力机制和 Muon 优化器,支持百万 token 级上下文。
Deepseek V4的百万上下文窗口:临界点
对Deepseek V4在多个生产代码库上的百万token上下文窗口的详细评估显示,在150-250k token时性能最佳,超过300k后性能下降,推理模式下延迟显著。该模型在未知任务上表现出较高的幻觉率,生产环境中需要验证层。
FlashMemory DeepSeek-V4 检索器(GitHub仓库)
介绍了FlashMemory DeepSeek-V4检索器,这是一个轻量级模型,通过预测接下来将关注哪些块来稀疏化DeepSeek-V4的CSA KV缓存,仅保留约10-15%在设备上,同时匹配全注意力性能。
DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]
DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。