对我来说,这是人工智能领域一个非常重要的里程碑。

Reddit r/LocalLLaMA 论文

摘要

作者宣布发布其首篇AI研究论文STAM(自适应动量的稳定训练),这是一种新的深度学习优化器,旨在解决训练的稳定性和资源效率问题,并邀请AI社区提供反馈。

https://preview.redd.it/wmuii8r68i1h1.png?width=1672&format=png&auto=webp&s=ab2a21eb9cc361fb2080ad90ec7207b0e1263419 三日前,我正式发布了首篇AI研究论文:**STAM(自适应动量的稳定训练)**。STAM引入了一种新的深度学习优化器,重点关注: * 提高训练稳定性, * 降低训练过程中的资源消耗, * 解决Adam、AdamW和Muon等优化器中存在的若干局限性。 论文阐述了STAM的独特之处、旨在解决的问题,并与现有优化器及训练结果进行了对比。该研究论文目前已在SSRN上发布,截至目前排名约在646K左右。对我来说,最重要的不是排名数字,而是希望AI工程师、研究人员和专家能阅读这篇论文,并分享真实的技术反馈与批评。我将STAM视为迄今为止从事的最大型项目之一,并计划持续改进和深化。我真诚希望听到AI社区的研究人员和资深人士对论文、优化器设计以及与其他优化器相比所报告的结果的意见。 研究论文:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=6699059 https://preview.redd.it/va8a5vbb8i1h1.png?width=1254&format=png&auto=webp&s=1f5edf7da0e1d7988b61dd735081e1f3d3a25c15
查看原文

相似文章

@dair_ai: https://x.com/dair_ai/status/2061104052818108476

X AI KOLs Following

三篇值得关注的人工智能论文综述:SkillOpt 将技能文档视为可训练参数以优化冻结的智能体;一种新方法将智能体工作流编译成模型权重,实现100倍成本降低;而 AutoScientists 引入了一个去中心化智能体团队,无需中央规划者即可进行长期科学研究。

迈向自动化AI研究的第一步 (12分钟阅读)

TLDR AI

Recursive 发布了一个自动化AI研究系统,在三个基准测试中取得了最先进的结果:固定预算语言模型训练、小模型训练速度和GPU内核优化。该系统自动化了研究循环,并开源了其运行中的产物。