新一代AI模型与最具影响力的研究论文之一。
摘要
Token AI发布了一篇研究论文,介绍STAM——一种新型自适应动量优化器,旨在提升训练稳定性并降低内存占用,相比AdamW等标准优化器效果更优。
https://preview.redd.it/3ccm5gd1puzg1.png?width=1179&format=png&auto=webp&s=c940d2e6ef1d61288ac214eae4679a7c910b7917 今天,我要聊聊Token AI的一篇新研究论文:《基于自适应动量的稳定训练》。这篇论文提出了一种理论上和实际效果上都堪称最强的优化器。多年来,我们一直依赖Adam、AdamW、LAMB等知名优化器。毫无疑问,它们一直是训练AI模型的首选。如果你不了解什么是优化器,简单来说:它是训练任何AI模型的核心部分。优化器负责在训练过程中更新模型权重以降低损失。然而,这些优化器存在一些限制,会影响训练效果。例如,Adam在整个训练过程中使用固定的beta1,这可能会携带过时的动量,使模型继续朝错误方向更新。STAM通过测量当前梯度与前一动量之间的差异(g - m)来解决这个问题。当差异较大时,它会降低beta1,从而在噪声较大的阶段实现更稳定的训练。另一个问题出现在训练出现偏移或噪声时。旧的动量可能变得有害。STAM通过基于残差方差的自适应beta1来处理这一问题。SGD的一个主要问题是,如果方向错误,由于固定动量,它会持续朝着错误方向前进。STAM通过让第一动量自我修正来解决这个问题。现在谈谈轻量版STAMLite。它的设计目的是在许多场景下替代AdamW成为默认选择。关键区别在于beta1是动态的而非固定的:* 如果梯度有噪声,它会降低动量;* 如果梯度稳定,它会保持高动量。它在优化器状态内存方面也提升了效率:* AdamW需要约2倍参数大小的内存;* STAM Full接近AdamW;* STAMLite需要约1倍参数大小的内存。实际使用中,STAMLite相比AdamW和STAM节省约50%的资源,意味着训练时GPU占用显著减少。从基准测试来看,结果不言而喻。在超参数扫描中,STAMLite达到了:准确率:0.61;损失:0.91。在长时域非平稳MLP中,STAM与NAdam并列第一,结果几乎相同:准确率:0.97;损失:0.09。更多基准测试可在官网及研究论文中查看。这是TokenAI迈出的重要一步,打破了长期以来对存在已知问题的有限优化器集的依赖。即使作为早期发布,它也证明了自身的强大与潜力。就我个人而言,我已经转向STAM,并正用它从头开始训练我的第一个完整大语言模型。我会很快分享结果。研究论文:[https://tokenai.cloud/research/stam](https://tokenai.cloud/research/stam) 期待你的看法。
相似文章
对我来说,这是人工智能领域一个非常重要的里程碑。
作者宣布发布其首篇AI研究论文STAM(自适应动量的稳定训练),这是一种新的深度学习优化器,旨在解决训练的稳定性和资源效率问题,并邀请AI社区提供反馈。
@AlphaSignalAI: https://x.com/AlphaSignalAI/status/2066928605691523210
这篇文章将28篇研究论文提炼成一个10层堆栈,用于构建围绕AI模型的自我改进框架,强调有限、有门控的变化,而非通用的代理循环。
STARE:惊奇度引导的令牌级优势重加权实现策略熵稳定性
STARE 通过引入惊奇度引导的令牌级优势重加权和目标熵调节,解决了基于GRPO的大语言模型强化学习中的策略熵崩溃问题,在AIME基准上实现了4%-8%的准确率提升。
@dair_ai: https://x.com/dair_ai/status/2061104052818108476
三篇值得关注的人工智能论文综述:SkillOpt 将技能文档视为可训练参数以优化冻结的智能体;一种新方法将智能体工作流编译成模型权重,实现100倍成本降低;而 AutoScientists 引入了一个去中心化智能体团队,无需中央规划者即可进行长期科学研究。
TRAM:为低功耗 AI 加速器训练近似乘法器结构
本文介绍了 TRAM,一种联合优化近似乘法器结构和 AI 模型参数的方法,旨在降低 AI 加速器的功耗,同时保持模型精度。