DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning 论文

摘要

DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。

DeepSeek 本周发布了完整的 V4 论文。四月份的预览版共 58 页,此次正式版新增了大量技术细节。以下是我关注到的重点。 **FP4 量化感知训练** 他们在训练后期直接进行 FP4 QAT。MoE 专家权重量化为 FP4(这是 GPU 显存的主要占用来源)。CSA 索引器中的 QK 路径使用 FP4 激活值。QK 选择器获得 2 倍加速,同时保留了 99.7% 的召回率。推理直接基于 FP4 权重运行。 效率对比表格令人印象深刻: | 模型 | 100 万上下文 FLOPs | KV 缓存 | |:-|:-|:-| | V3.2 | 基准 | 基准 | | V4-Pro | 基准的 27% | 基准的 10% | | V4-Flash | 基准的 10% | 基准的 7% | **训练稳定性:两种机制** 万亿参数规模的 MoE 存在 loss 尖峰、梯度发散和不可预测失败等问题。他们记录了两种解决方案。 **预判路由**:他们有意将主模型与路由器的参数更新解耦。当前步骤使用最新参数计算特征,但路由使用缓存的旧参数。这打破了放大异常的反馈回路。引入约 20% 的额外开销,但仅在 loss 尖峰期间触发。 **SwiGLU 截断**:对 SwiGLU 的线性路径(-10 到 10)和门控路径(上限 10)设置硬性限制,抑制可能级联放大的极端值。 **生成式奖励模型** 他们没有为 RLHF 使用独立的奖励模型,而是用同一个模型同时负责生成和评估。在打分数据上训练后,模型学会对自身输出进行带推理过程的评判。优点是:减少人工标注、评估有推理支撑、训练流程统一。 **人工评测结果** 中文写作方面,V4-Pro 对比 Gemini 3.1 Pro 胜率为 62.7%,在写作质量单项上达到 77.5%。白领任务方面(涵盖 13 个行业共 30 项高阶任务),V4-Pro-Max 对比 opus 4.6 max 的不败率为 63%。编程智能体评测方面,52% 的用户表示 V4-Pro 已可作为其默认编程模型,39% 倾向于赞同,不到 9% 持否定态度。 这与我的实际体验相符——上周已将 V4-Pro 接入我的 verdent 工作流,日常使用中未察觉到任何质量下降。 对我而言,最大亮点是 FP4 QAT 在质量损耗极小的情况下落地。如果这一方案具有普适性,训练与推理的成本结构将发生根本性转变,在多智能体场景下尤为明显——单个任务往往会触发 5 到 10 次模型调用。 论文链接见评论区。
查看原文

相似文章

deepseek-ai/DeepSeek-V4-Flash

Hugging Face Models Trending

DeepSeek 发布 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro,新一代 MoE 语言模型,支持 100 万 token 上下文,效率和性能均有提升。

deepseek-ai/DeepSeek-V4-Pro

Hugging Face Models Trending

DeepSeek 发布了 V4-Pro 和 V4-Flash,这些混合专家模型采用混合注意力机制和 Muon 优化器,支持百万 token 级上下文。

Jackrong/Qwen3.5-9B-DeepSeek-V4-Flash-GGUF

Hugging Face Models Trending

本文档介绍 Qwen3.5-9B-DeepSeek-V4-Flash,这是一款通过知识蒸馏技术将 DeepSeek-V4 的推理能力迁移至 9B 参数小模型中的 AI 模型,旨在实现高效推理。