training-stability

标签

Cards List
#training-stability

DeepSeek V4 完整论文发布:FP4 QAT 技术细节与训练稳定性技巧 [D]

Reddit r/MachineLearning · 6小时前

DeepSeek 发布了完整的 V4 论文,详细介绍了 FP4 量化感知训练、MoE 训练稳定性技巧(预判路由与 SwiGLU 截断),以及用于 RLHF 的生成式奖励模型,实现了显著的效率提升——V4-Flash 在 100 万上下文长度下仅需 V3.2 的 10% FLOPs 和 7% 的 KV 缓存。

0 人收藏 0 人点赞
#training-stability

新一代AI模型与最具影响力的研究论文之一。

Reddit r/LocalLLaMA · 昨天

Token AI发布了一篇研究论文,介绍STAM——一种新型自适应动量优化器,旨在提升训练稳定性并降低内存占用,相比AdamW等标准优化器效果更优。

0 人收藏 0 人点赞
#training-stability

平衡聚合:理解与修复 GRPO 中的聚合偏差

Hugging Face Daily Papers · 2026-04-14 缓存

本文指出了 GRPO 风格的大语言模型强化学习中存在的聚合偏差问题,并提出了平衡聚合(Balanced Aggregation, BA)方法。该方法通过对正负子集分别计算 token 级均值,从而提高了训练稳定性和最终性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈