标签
作者分享了对如何将收敛性作为迭代权值绑定模型可靠停止信号的思考,讨论了DEQ、Huggin、Ouro和EqR等论文中的技巧,并强调了预归一化和输入注入的作用。
本文展示了反例,表明在表格强化学习中,Monte Carlo Exploring Starts可能收敛到次优解,并提供了一种修改方法,通过将学习率与更新频率成反比缩放,保证收敛到最优性。
本文介绍了层次涌现框架(HEF),该框架解释了在物理和信息约束下,通过机制景观中的相变,神经网络和生物进化等多样系统如何收敛到相似的内部表示。该框架通过111个grokking实验进行了实证验证,这些实验确认了通用收敛,并识别出一个临界能量阈值。
提出SSD-FL,一种无服务器半去中心化联邦学习方法,通过有效损失函数和基于Cheeger不等式的迭代聚类优化异构环境中的聚类形成,提升了收敛速度和通信效率。
本文将非均匀光滑性假设推广到曲率与目标值呈仿射关系的目标函数,证明了最速下降法以及RMSProp和Adam的对角变体的收敛速率,并应用于逻辑回归和神经网络。
本文提出了一个多目标优化中梯度聚合的统一理论框架,建立了收敛到帕累托平稳性的速率。作者引入了一个充分对齐条件,并展示了其在现有算法和新算法(如 capped MGDA)中的应用。
来自 Veso 的一份全面研究指南,详细阐述了已在主要 AI 智能体系统(Claude Code、OpenAI Codex、Gemini CLI 等)中趋同的通用架构模式,并提出了构建生产级智能体系统的 8 条基本假设。
本文介绍了DynMuon,一种动态频谱塑形优化器,它在训练过程中将更新参数p从正值调度为轻微负值,从而持续获得更低的验证损失,并且达到相同目标损失所需的步数比标准Muon优化器减少10.6%–26.5%。