新一代AI模型与最具影响力的研究论文之一。
摘要
Token AI发布了一篇研究论文,介绍STAM——一种新型自适应动量优化器,旨在提升训练稳定性并降低内存占用,相比AdamW等标准优化器效果更优。
https://preview.redd.it/3ccm5gd1puzg1.png?width=1179&format=png&auto=webp&s=c940d2e6ef1d61288ac214eae4679a7c910b7917 今天,我要聊聊Token AI的一篇新研究论文:《基于自适应动量的稳定训练》。这篇论文提出了一种理论上和实际效果上都堪称最强的优化器。多年来,我们一直依赖Adam、AdamW、LAMB等知名优化器。毫无疑问,它们一直是训练AI模型的首选。如果你不了解什么是优化器,简单来说:它是训练任何AI模型的核心部分。优化器负责在训练过程中更新模型权重以降低损失。然而,这些优化器存在一些限制,会影响训练效果。例如,Adam在整个训练过程中使用固定的beta1,这可能会携带过时的动量,使模型继续朝错误方向更新。STAM通过测量当前梯度与前一动量之间的差异(g - m)来解决这个问题。当差异较大时,它会降低beta1,从而在噪声较大的阶段实现更稳定的训练。另一个问题出现在训练出现偏移或噪声时。旧的动量可能变得有害。STAM通过基于残差方差的自适应beta1来处理这一问题。SGD的一个主要问题是,如果方向错误,由于固定动量,它会持续朝着错误方向前进。STAM通过让第一动量自我修正来解决这个问题。现在谈谈轻量版STAMLite。它的设计目的是在许多场景下替代AdamW成为默认选择。关键区别在于beta1是动态的而非固定的:* 如果梯度有噪声,它会降低动量;* 如果梯度稳定,它会保持高动量。它在优化器状态内存方面也提升了效率:* AdamW需要约2倍参数大小的内存;* STAM Full接近AdamW;* STAMLite需要约1倍参数大小的内存。实际使用中,STAMLite相比AdamW和STAM节省约50%的资源,意味着训练时GPU占用显著减少。从基准测试来看,结果不言而喻。在超参数扫描中,STAMLite达到了:准确率:0.61;损失:0.91。在长时域非平稳MLP中,STAM与NAdam并列第一,结果几乎相同:准确率:0.97;损失:0.09。更多基准测试可在官网及研究论文中查看。这是TokenAI迈出的重要一步,打破了长期以来对存在已知问题的有限优化器集的依赖。即使作为早期发布,它也证明了自身的强大与潜力。就我个人而言,我已经转向STAM,并正用它从头开始训练我的第一个完整大语言模型。我会很快分享结果。研究论文:[https://tokenai.cloud/research/stam](https://tokenai.cloud/research/stam) 期待你的看法。
相似文章
AccelOpt:一种用于AI加速器内核优化的自我改进LLM智能体系统
AccelOpt是一种自我改进的LLM智能体系统,通过迭代生成和优化记忆自主优化AI加速器内核,在AWS Trainium上实现了49%至61%的峰值吞吐量提升,同时比Claude Sonnet 4便宜26倍。
随机分词法提高模型鲁棒性
本论文证明了使用随机分词而非确定性标准分词来训练大型语言模型,可以显著提升模型对对抗攻击和随机扰动的鲁棒性。这种改进在预训练、微调和上下文学习阶段都有表现,且不会增加推理成本。
随着AI能力提升,强化网络防御能力
OpenAI 发布了一套管理AI模型网络能力的综合框架,指出在 CTF 性能上取得了显著进步(从 GPT-5 的 27% 提升到 GPT-5.1-Codex-Max 的 76%),并概述了纵深防御措施,以确保先进模型主要造福防御方,同时限制恶意使用。
微调 API 功能改进和自定义模型项目扩展
OpenAI 推出微调 API 的功能改进,包括基于轮次的检查点、用于模型评估的对比体验区、第三方集成和增强的仪表板功能。该公司还扩展了其自定义模型项目,为开发者提供更多对构建领域特定 AI 解决方案的控制和灵活性。
新技术让AI模型边学边瘦、边学快
MIT CSAIL及其他机构的研究人员推出了CompreSSM技术,该技术通过在训练早期移除不必要的组件来压缩状态空间AI模型,从而在不牺牲性能的情况下实现更快的训练速度和更小的模型体积。