theoretical-ml

标签

Cards List
#theoretical-ml

乐观对偶平均化统一了现代优化器

arXiv cs.LG · 2天前 缓存

本文介绍了 SODA,这是乐观对偶平均化的一种广义形式,统一了 Muon 和 Lion 等现代优化器。该研究提出了一种实用包装器,在不同规模下均可提升性能,且无需为权重衰减进行额外的超参数调优。

0 人收藏 0 人点赞
#theoretical-ml

FragileFlow:通过频谱控制正确但脆弱的预测以增强基础模型的鲁棒性

arXiv cs.CL · 3天前 缓存

本文介绍了 FragileFlow,这是一种插件式正则化器,通过频谱分析和 PAC-Bayes 界来控制“正确但脆弱”的预测,从而提高 LLM 和 VLM 的鲁棒性。

0 人收藏 0 人点赞
#theoretical-ml

Transformer 中的几何事实记忆

Hugging Face Daily Papers · 3天前 缓存

本文介绍了 Transformer 中几何事实记忆的理论框架,证明了嵌入可以通过线性叠加来编码关系结构,而 MLP 则充当选择器。文章提供了理论和实证证据,表明这种机制能够高效地记忆事实和进行多跳查询。

0 人收藏 0 人点赞
#theoretical-ml

论在无局部时钟条件下差分时序差分学习的发散性

arXiv cs.LG · 4天前 缓存

本文通过提供一个反例解决了一个强化学习领域的开放性问题,表明在平均奖励设置下,尽管差分时序差分学习在使用局部时钟时能够收敛,但在使用全局时钟时可能会发散。

0 人收藏 0 人点赞
#theoretical-ml

异步类别分布型时序差分学习的有限迭代理论

arXiv cs.LG · 4天前 缓存

本文提出了异步类别分布型时序差分学习的有限迭代理论,弥合了现有理论框架与实际在线实现之间的差距。

0 人收藏 0 人点赞
#theoretical-ml

针对边缘稳定性下 Adam 优化器的杆流模型

arXiv cs.LG · 4天前 缓存

本文提出了一种适用于 Adam 及其他自适应优化器的“杆流”模型,以更好地分析其在边缘稳定性(Edge of Stability)下的行为。该研究将连续时间建模扩展至动量方法,结果表明,与稳定的流模型相比,该模型在追踪离散迭代点方面具有更高的准确性。

0 人收藏 0 人点赞
#theoretical-ml

带有自回归思维链推理的在线学习理论

arXiv cs.LG · 4天前 缓存

本文建立了一个关于自回归思维链推理的在线学习理论框架,分析了端到端监督和轨迹监督模型下的错误边界。

0 人收藏 0 人点赞
#theoretical-ml

信念空间动力学中允许的学习率步长的闭式上界

arXiv cs.LG · 4天前 缓存

本文利用KL散度和Bregman几何,推导了信念空间动力学中允许的学习率步长的闭式上界,重点关注交叉熵分类任务。

0 人收藏 0 人点赞
#theoretical-ml

@probnstat: 每位机器学习工程师都应了解的一个定理:Johnson-Lindenstrauss 引理。它指出,高维数据可以……

X AI KOLs Following · 5天前

本文重点介绍了 Johnson-Lindenstrauss 引理,解释了其在帮助机器学习工程师理解降维、随机投影和嵌入效率方面的重要性。

0 人收藏 0 人点赞
#theoretical-ml

通过混合反馈在广义线性带臂中进行最佳臂识别

arXiv cs.AI · 2026-05-08 缓存

本文介绍了一种用于广义线性带臂中最佳臂识别的混合 Track-and-Stop 算法,该算法统一了绝对反馈和相对反馈。作者提出了一种基于似然比的置信序列以自适应分配查询,并证明了该方法在样本效率上优于基线方法。

0 人收藏 0 人点赞
#theoretical-ml

模仿学习:性能如何?

ML at Berkeley · 2021-04-28 缓存

本文分析了一篇近期发表的学术论文,该论文为模仿学习算法提供了一个分类框架,通过矩匹配技术对这些算法进行分类,并分析其理论模仿差距界限。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈