标签
本文介绍了 SODA,这是乐观对偶平均化的一种广义形式,统一了 Muon 和 Lion 等现代优化器。该研究提出了一种实用包装器,在不同规模下均可提升性能,且无需为权重衰减进行额外的超参数调优。
本文介绍了 FragileFlow,这是一种插件式正则化器,通过频谱分析和 PAC-Bayes 界来控制“正确但脆弱”的预测,从而提高 LLM 和 VLM 的鲁棒性。
本文介绍了 Transformer 中几何事实记忆的理论框架,证明了嵌入可以通过线性叠加来编码关系结构,而 MLP 则充当选择器。文章提供了理论和实证证据,表明这种机制能够高效地记忆事实和进行多跳查询。
本文通过提供一个反例解决了一个强化学习领域的开放性问题,表明在平均奖励设置下,尽管差分时序差分学习在使用局部时钟时能够收敛,但在使用全局时钟时可能会发散。
本文提出了一种适用于 Adam 及其他自适应优化器的“杆流”模型,以更好地分析其在边缘稳定性(Edge of Stability)下的行为。该研究将连续时间建模扩展至动量方法,结果表明,与稳定的流模型相比,该模型在追踪离散迭代点方面具有更高的准确性。
本文利用KL散度和Bregman几何,推导了信念空间动力学中允许的学习率步长的闭式上界,重点关注交叉熵分类任务。
本文重点介绍了 Johnson-Lindenstrauss 引理,解释了其在帮助机器学习工程师理解降维、随机投影和嵌入效率方面的重要性。
本文介绍了一种用于广义线性带臂中最佳臂识别的混合 Track-and-Stop 算法,该算法统一了绝对反馈和相对反馈。作者提出了一种基于似然比的置信序列以自适应分配查询,并证明了该方法在样本效率上优于基线方法。
本文分析了一篇近期发表的学术论文,该论文为模仿学习算法提供了一个分类框架,通过矩匹配技术对这些算法进行分类,并分析其理论模仿差距界限。