新一代AI模型与最具影响力的研究论文之一。

Reddit r/LocalLLaMA 2026/05/08 05:38 论文

optimization machine-learning training-stability research token-ai stam

摘要

Token AI发布了一篇研究论文，介绍STAM——一种新型自适应动量优化器，旨在提升训练稳定性并降低内存占用，相比AdamW等标准优化器效果更优。

https://preview.redd.it/3ccm5gd1puzg1.png?width=1179&format=png&auto=webp&s=c940d2e6ef1d61288ac214eae4679a7c910b7917 今天，我要聊聊Token AI的一篇新研究论文：《基于自适应动量的稳定训练》。这篇论文提出了一种理论上和实际效果上都堪称最强的优化器。多年来，我们一直依赖Adam、AdamW、LAMB等知名优化器。毫无疑问，它们一直是训练AI模型的首选。如果你不了解什么是优化器，简单来说：它是训练任何AI模型的核心部分。优化器负责在训练过程中更新模型权重以降低损失。然而，这些优化器存在一些限制，会影响训练效果。例如，Adam在整个训练过程中使用固定的beta1，这可能会携带过时的动量，使模型继续朝错误方向更新。STAM通过测量当前梯度与前一动量之间的差异（g - m）来解决这个问题。当差异较大时，它会降低beta1，从而在噪声较大的阶段实现更稳定的训练。另一个问题出现在训练出现偏移或噪声时。旧的动量可能变得有害。STAM通过基于残差方差的自适应beta1来处理这一问题。SGD的一个主要问题是，如果方向错误，由于固定动量，它会持续朝着错误方向前进。STAM通过让第一动量自我修正来解决这个问题。现在谈谈轻量版STAMLite。它的设计目的是在许多场景下替代AdamW成为默认选择。关键区别在于beta1是动态的而非固定的：* 如果梯度有噪声，它会降低动量；* 如果梯度稳定，它会保持高动量。它在优化器状态内存方面也提升了效率：* AdamW需要约2倍参数大小的内存；* STAM Full接近AdamW；* STAMLite需要约1倍参数大小的内存。实际使用中，STAMLite相比AdamW和STAM节省约50%的资源，意味着训练时GPU占用显著减少。从基准测试来看，结果不言而喻。在超参数扫描中，STAMLite达到了：准确率：0.61；损失：0.91。在长时域非平稳MLP中，STAM与NAdam并列第一，结果几乎相同：准确率：0.97；损失：0.09。更多基准测试可在官网及研究论文中查看。这是TokenAI迈出的重要一步，打破了长期以来对存在已知问题的有限优化器集的依赖。即使作为早期发布，它也证明了自身的强大与潜力。就我个人而言，我已经转向STAM，并正用它从头开始训练我的第一个完整大语言模型。我会很快分享结果。研究论文：[https://tokenai.cloud/research/stam](https://tokenai.cloud/research/stam) 期待你的看法。

查看原文

新一代AI模型与最具影响力的研究论文之一。

相似文章

AccelOpt：一种用于AI加速器内核优化的自我改进LLM智能体系统

随机分词法提高模型鲁棒性

随着AI能力提升，强化网络防御能力

微调 API 功能改进和自定义模型项目扩展

新技术让AI模型边学边瘦、边学快

提交意见反馈