DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning 论文

摘要

DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。

DeepSeek 本周发布了完整的 V4 论文。四月份的预览版共 58 页,此次正式版新增了大量技术细节。以下是我关注到的重点。 **FP4 量化感知训练** 他们在训练后期直接进行 FP4 QAT。MoE 专家权重量化为 FP4(这是 GPU 显存的主要占用来源)。CSA 索引器中的 QK 路径使用 FP4 激活值。QK 选择器获得 2 倍加速,同时保留了 99.7% 的召回率。推理直接基于 FP4 权重运行。 效率对比表格令人印象深刻: | 模型 | 100 万上下文 FLOPs | KV 缓存 | |:-|:-|:-| | V3.2 | 基准 | 基准 | | V4-Pro | 基准的 27% | 基准的 10% | | V4-Flash | 基准的 10% | 基准的 7% | **训练稳定性:两种机制** 万亿参数规模的 MoE 存在 loss 尖峰、梯度发散和不可预测失败等问题。他们记录了两种解决方案。 **预判路由**:他们有意将主模型与路由器的参数更新解耦。当前步骤使用最新参数计算特征,但路由使用缓存的旧参数。这打破了放大异常的反馈回路。引入约 20% 的额外开销,但仅在 loss 尖峰期间触发。 **SwiGLU 截断**:对 SwiGLU 的线性路径(-10 到 10)和门控路径(上限 10)设置硬性限制,抑制可能级联放大的极端值。 **生成式奖励模型** 他们没有为 RLHF 使用独立的奖励模型,而是用同一个模型同时负责生成和评估。在打分数据上训练后,模型学会对自身输出进行带推理过程的评判。优点是:减少人工标注、评估有推理支撑、训练流程统一。 **人工评测结果** 中文写作方面,V4-Pro 对比 Gemini 3.1 Pro 胜率为 62.7%,在写作质量单项上达到 77.5%。白领任务方面(涵盖 13 个行业共 30 项高阶任务),V4-Pro-Max 对比 opus 4.6 max 的不败率为 63%。编程智能体评测方面,52% 的用户表示 V4-Pro 已可作为其默认编程模型,39% 倾向于赞同,不到 9% 持否定态度。 这与我的实际体验相符——上周已将 V4-Pro 接入我的 verdent 工作流,日常使用中未察觉到任何质量下降。 对我而言,最大亮点是 FP4 QAT 在质量损耗极小的情况下落地。如果这一方案具有普适性,训练与推理的成本结构将发生根本性转变,在多智能体场景下尤为明显——单个任务往往会触发 5 到 10 次模型调用。 论文链接见评论区。
查看原文

相似文章

antirez/deepseek-v4-gguf

Hugging Face Models Trending

Antirez发布了专门为DS4推理引擎优化的DeepSeek V4 Flash GGUF量化版本,针对不同内存大小提供了优化配置,使得这个大型MoE模型可以在本地运行。

FlashMemory DeepSeek-V4 检索器(GitHub仓库)

TLDR AI

介绍了FlashMemory DeepSeek-V4检索器,这是一个轻量级模型,通过预测接下来将关注哪些块来稀疏化DeepSeek-V4的CSA KV缓存,仅保留约10-15%在设备上,同时匹配全注意力性能。

deepseek-ai/DeepSeek-V4-Flash

Hugging Face Models Trending

DeepSeek 发布 DeepSeek-V4-Flash 和 DeepSeek-V4-Pro,新一代 MoE 语言模型,支持 100 万 token 上下文,效率和性能均有提升。