training-stability

#training-stability

DeepSeek V4 完整论文发布：FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning ↗ · 6小时前

DeepSeek 发布了完整的 V4 论文，详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧（预判路由与 SwiGLU 截断），以及用于 RLHF 的生成式奖励模型，实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。

0 人收藏 0 人点赞

#training-stability

新一代AI模型与最具影响力的研究论文之一。

Reddit r/LocalLLaMA ↗ · 昨天

Token AI发布了一篇研究论文，介绍STAM——一种新型自适应动量优化器，旨在提升训练稳定性并降低内存占用，相比AdamW等标准优化器效果更优。

0 人收藏 0 人点赞

#training-stability

平衡聚合：理解与修复 GRPO 中的聚合偏差

Hugging Face Daily Papers ↗ · 2026-04-14 缓存

本文指出了 GRPO 风格的大语言模型强化学习中存在的聚合偏差问题，并提出了平衡聚合（Balanced Aggregation, BA）方法。该方法通过对正负子集分别计算 token 级均值，从而提高了训练稳定性和最终性能。

0 人收藏 0 人点赞

training-stability

DeepSeek V4 完整论文发布：FP4 QAT 技术细节与训练稳定性技巧 [D]

新一代AI模型与最具影响力的研究论文之一。

平衡聚合：理解与修复 GRPO 中的聚合偏差

提交意见反馈