DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]
摘要
DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。
DeepSeek 本周发布了完整的 V4 论文。四月份的预览版共 58 页,此次正式版新增了大量技术细节。以下是我关注到的重点。
**FP4 量化感知训练**
他们在训练后期直接进行 FP4 QAT。MoE 专家权重量化为 FP4(这是 GPU 显存的主要占用来源)。CSA 索引器中的 QK 路径使用 FP4 激活值。QK 选择器获得 2 倍加速,同时保留了 99.7% 的召回率。推理直接基于 FP4 权重运行。
效率对比表格令人印象深刻:
| 模型 | 100 万上下文 FLOPs | KV 缓存 |
|:-|:-|:-|
| V3.2 | 基准 | 基准 |
| V4-Pro | 基准的 27% | 基准的 10% |
| V4-Flash | 基准的 10% | 基准的 7% |
**训练稳定性:两种机制**
万亿参数规模的 MoE 存在 loss 尖峰、梯度发散和不可预测失败等问题。他们记录了两种解决方案。
**预判路由**:他们有意将主模型与路由器的参数更新解耦。当前步骤使用最新参数计算特征,但路由使用缓存的旧参数。这打破了放大异常的反馈回路。引入约 20% 的额外开销,但仅在 loss 尖峰期间触发。
**SwiGLU 截断**:对 SwiGLU 的线性路径(-10 到 10)和门控路径(上限 10)设置硬性限制,抑制可能级联放大的极端值。
**生成式奖励模型**
他们没有为 RLHF 使用独立的奖励模型,而是用同一个模型同时负责生成和评估。在打分数据上训练后,模型学会对自身输出进行带推理过程的评判。优点是:减少人工标注、评估有推理支撑、训练流程统一。
**人工评测结果**
中文写作方面,V4-Pro 对比 Gemini 3.1 Pro 胜率为 62.7%,在写作质量单项上达到 77.5%。白领任务方面(涵盖 13 个行业共 30 项高阶任务),V4-Pro-Max 对比 opus 4.6 max 的不败率为 63%。编程智能体评测方面,52% 的用户表示 V4-Pro 已可作为其默认编程模型,39% 倾向于赞同,不到 9% 持否定态度。
这与我的实际体验相符——上周已将 V4-Pro 接入我的 verdent 工作流,日常使用中未察觉到任何质量下降。
对我而言,最大亮点是 FP4 QAT 在质量损耗极小的情况下落地。如果这一方案具有普适性,训练与推理的成本结构将发生根本性转变,在多智能体场景下尤为明显——单个任务往往会触发 5 到 10 次模型调用。
论文链接见评论区。
相似文章
antirez/deepseek-v4-gguf
Antirez发布了专门为DS4推理引擎优化的DeepSeek V4 Flash GGUF量化版本,针对不同内存大小提供了优化配置,使得这个大型MoE模型可以在本地运行。
@julien_c: 刚刚发布了由 @NVIDIAAI 提供的 DeepSeek-V4-Pro-NVFP4 修复版
NVIDIA 发布了 DeepSeek-V4-Pro-NVFP4 的量化修复版,这是一个拥有 1.6 万亿参数、激活参数 490 亿的 MoE 模型,针对高级推理和智能体 AI 进行了优化。
DeepSeek-V4-Flash W4A16+FP8 结合 MTP 自推测:在 2 张 RTX PRO 6000 Max-Q 上以 524K 上下文长度实现 85 tok/s
这篇文章详细介绍了一个经过定制并量化的 DeepSeek-V4-Flash 模型版本,启用了 MTP 自推测功能。通过修改后的 vLLM 设置,在双 RTX PRO 6000 Max-Q GPU 上实现了显著的速度提升。
FlashMemory DeepSeek-V4 检索器(GitHub仓库)
介绍了FlashMemory DeepSeek-V4检索器,这是一个轻量级模型,通过预测接下来将关注哪些块来稀疏化DeepSeek-V4的CSA KV缓存,仅保留约10-15%在设备上,同时匹配全注意力性能。
deepseek-ai/DeepSeek-V4-Flash
DeepSeek 发布 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro,新一代 MoE 语言模型,支持 100 万 token 上下文,效率和性能均有提升。