DeepSeek V4 完整论文发布：FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning 2026/05/09 08:10 论文

摘要

DeepSeek 发布了完整的 V4 论文，详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧（预判路由与 SwiGLU 截断），以及用于 RLHF 的生成式奖励模型，实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。

DeepSeek 本周发布了完整的 V4 论文。四月份的预览版共 58 页，此次正式版新增了大量技术细节。以下是我关注到的重点。 **FP4 量化感知训练** 他们在训练后期直接进行 FP4 QAT。MoE 专家权重量化为 FP4（这是 GPU 显存的主要占用来源）。CSA 索引器中的 QK 路径使用 FP4 激活值。QK 选择器获得 2 倍加速，同时保留了 99.7% 的召回率。推理直接基于 FP4 权重运行。效率对比表格令人印象深刻： | 模型 | 100 万上下文 FLOPs | KV 缓存 | |:-|:-|:-| | V3.2 | 基准 | 基准 | | V4-Pro | 基准的 27% | 基准的 10% | | V4-Flash | 基准的 10% | 基准的 7% | **训练稳定性：两种机制** 万亿参数规模的 MoE 存在 loss 尖峰、梯度发散和不可预测失败等问题。他们记录了两种解决方案。 **预判路由**：他们有意将主模型与路由器的参数更新解耦。当前步骤使用最新参数计算特征，但路由使用缓存的旧参数。这打破了放大异常的反馈回路。引入约 20% 的额外开销，但仅在 loss 尖峰期间触发。 **SwiGLU 截断**：对 SwiGLU 的线性路径（-10 到 10）和门控路径（上限 10）设置硬性限制，抑制可能级联放大的极端值。 **生成式奖励模型** 他们没有为 RLHF 使用独立的奖励模型，而是用同一个模型同时负责生成和评估。在打分数据上训练后，模型学会对自身输出进行带推理过程的评判。优点是：减少人工标注、评估有推理支撑、训练流程统一。 **人工评测结果** 中文写作方面，V4-Pro 对比 Gemini 3.1 Pro 胜率为 62.7%，在写作质量单项上达到 77.5%。白领任务方面（涵盖 13 个行业共 30 项高阶任务），V4-Pro-Max 对比 opus 4.6 max 的不败率为 63%。编程智能体评测方面，52% 的用户表示 V4-Pro 已可作为其默认编程模型，39% 倾向于赞同，不到 9% 持否定态度。这与我的实际体验相符——上周已将 V4-Pro 接入我的 verdent 工作流，日常使用中未察觉到任何质量下降。对我而言，最大亮点是 FP4 QAT 在质量损耗极小的情况下落地。如果这一方案具有普适性，训练与推理的成本结构将发生根本性转变，在多智能体场景下尤为明显——单个任务往往会触发 5 到 10 次模型调用。论文链接见评论区。

查看原文

DeepSeek V4 完整论文发布：FP4 QAT 技术细节与训练稳定性技巧 [D]

相似文章

deepseek-ai/DeepSeek-V4-Flash

deepseek-ai/DeepSeek-V4-Pro

DeepSeek-V4：百万Token上下文，真正可供智能体使用

Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF

需要 DeepSeek V3.2 各量化级别的质量基准信息 [D]

提交意见反馈