DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]
摘要
DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。
DeepSeek 本周发布了完整的 V4 论文。四月份的预览版共 58 页,此次正式版新增了大量技术细节。以下是我关注到的重点。
**FP4 量化感知训练**
他们在训练后期直接进行 FP4 QAT。MoE 专家权重量化为 FP4(这是 GPU 显存的主要占用来源)。CSA 索引器中的 QK 路径使用 FP4 激活值。QK 选择器获得 2 倍加速,同时保留了 99.7% 的召回率。推理直接基于 FP4 权重运行。
效率对比表格令人印象深刻:
| 模型 | 100 万上下文 FLOPs | KV 缓存 |
|:-|:-|:-|
| V3.2 | 基准 | 基准 |
| V4-Pro | 基准的 27% | 基准的 10% |
| V4-Flash | 基准的 10% | 基准的 7% |
**训练稳定性:两种机制**
万亿参数规模的 MoE 存在 loss 尖峰、梯度发散和不可预测失败等问题。他们记录了两种解决方案。
**预判路由**:他们有意将主模型与路由器的参数更新解耦。当前步骤使用最新参数计算特征,但路由使用缓存的旧参数。这打破了放大异常的反馈回路。引入约 20% 的额外开销,但仅在 loss 尖峰期间触发。
**SwiGLU 截断**:对 SwiGLU 的线性路径(-10 到 10)和门控路径(上限 10)设置硬性限制,抑制可能级联放大的极端值。
**生成式奖励模型**
他们没有为 RLHF 使用独立的奖励模型,而是用同一个模型同时负责生成和评估。在打分数据上训练后,模型学会对自身输出进行带推理过程的评判。优点是:减少人工标注、评估有推理支撑、训练流程统一。
**人工评测结果**
中文写作方面,V4-Pro 对比 Gemini 3.1 Pro 胜率为 62.7%,在写作质量单项上达到 77.5%。白领任务方面(涵盖 13 个行业共 30 项高阶任务),V4-Pro-Max 对比 opus 4.6 max 的不败率为 63%。编程智能体评测方面,52% 的用户表示 V4-Pro 已可作为其默认编程模型,39% 倾向于赞同,不到 9% 持否定态度。
这与我的实际体验相符——上周已将 V4-Pro 接入我的 verdent 工作流,日常使用中未察觉到任何质量下降。
对我而言,最大亮点是 FP4 QAT 在质量损耗极小的情况下落地。如果这一方案具有普适性,训练与推理的成本结构将发生根本性转变,在多智能体场景下尤为明显——单个任务往往会触发 5 到 10 次模型调用。
论文链接见评论区。
相似文章
deepseek-ai/DeepSeek-V4-Flash
DeepSeek 发布 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro,新一代 MoE 语言模型,支持 100 万 token 上下文,效率和性能均有提升。
deepseek-ai/DeepSeek-V4-Pro
DeepSeek 发布了 V4-Pro 和 V4-Flash,这些混合专家模型采用混合注意力机制和 Muon 优化器,支持百万 token 级上下文。
DeepSeek-V4:百万Token上下文,真正可供智能体使用
DeepSeek发布V4,这是一款MoE模型,拥有100万Token上下文窗口,通过混合注意力机制和降低KV缓存需求,针对智能体任务进行了优化。
Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF
本文档介绍 Qwen3.5-9B-DeepSeek-V4-Flash,这是一款通过知识蒸馏技术将 DeepSeek-V4 的推理能力迁移至 9B 参数小模型中的 AI 模型,旨在实现高效推理。
需要 DeepSeek V3.2 各量化级别的质量基准信息 [D]
开发者寻求质量基准,以评估运行时量化对 DeepSeek V3.2 模型性能的影响。