theoretical-ml

#theoretical-ml

乐观对偶平均化统一了现代优化器

arXiv cs.LG ↗ · 2天前缓存

本文介绍了 SODA，这是乐观对偶平均化的一种广义形式，统一了 Muon 和 Lion 等现代优化器。该研究提出了一种实用包装器，在不同规模下均可提升性能，且无需为权重衰减进行额外的超参数调优。

0 人收藏 0 人点赞

#theoretical-ml

FragileFlow：通过频谱控制正确但脆弱的预测以增强基础模型的鲁棒性

arXiv cs.CL ↗ · 3天前缓存

本文介绍了 FragileFlow，这是一种插件式正则化器，通过频谱分析和 PAC-Bayes 界来控制“正确但脆弱”的预测，从而提高 LLM 和 VLM 的鲁棒性。

0 人收藏 0 人点赞

#theoretical-ml

Transformer 中的几何事实记忆

Hugging Face Daily Papers ↗ · 3天前缓存

本文介绍了 Transformer 中几何事实记忆的理论框架，证明了嵌入可以通过线性叠加来编码关系结构，而 MLP 则充当选择器。文章提供了理论和实证证据，表明这种机制能够高效地记忆事实和进行多跳查询。

0 人收藏 0 人点赞

#theoretical-ml

论在无局部时钟条件下差分时序差分学习的发散性

arXiv cs.LG ↗ · 4天前缓存

本文通过提供一个反例解决了一个强化学习领域的开放性问题，表明在平均奖励设置下，尽管差分时序差分学习在使用局部时钟时能够收敛，但在使用全局时钟时可能会发散。

0 人收藏 0 人点赞

#theoretical-ml

异步类别分布型时序差分学习的有限迭代理论

arXiv cs.LG ↗ · 4天前缓存

本文提出了异步类别分布型时序差分学习的有限迭代理论，弥合了现有理论框架与实际在线实现之间的差距。

0 人收藏 0 人点赞

#theoretical-ml

针对边缘稳定性下 Adam 优化器的杆流模型

arXiv cs.LG ↗ · 4天前缓存

本文提出了一种适用于 Adam 及其他自适应优化器的“杆流”模型，以更好地分析其在边缘稳定性（Edge of Stability）下的行为。该研究将连续时间建模扩展至动量方法，结果表明，与稳定的流模型相比，该模型在追踪离散迭代点方面具有更高的准确性。

0 人收藏 0 人点赞

#theoretical-ml

带有自回归思维链推理的在线学习理论

arXiv cs.LG ↗ · 4天前缓存

本文建立了一个关于自回归思维链推理的在线学习理论框架，分析了端到端监督和轨迹监督模型下的错误边界。

0 人收藏 0 人点赞

#theoretical-ml

信念空间动力学中允许的学习率步长的闭式上界

arXiv cs.LG ↗ · 4天前缓存

本文利用KL散度和Bregman几何，推导了信念空间动力学中允许的学习率步长的闭式上界，重点关注交叉熵分类任务。

0 人收藏 0 人点赞

#theoretical-ml

@probnstat: 每位机器学习工程师都应了解的一个定理：Johnson-Lindenstrauss 引理。它指出，高维数据可以……

X AI KOLs Following ↗ · 5天前

本文重点介绍了 Johnson-Lindenstrauss 引理，解释了其在帮助机器学习工程师理解降维、随机投影和嵌入效率方面的重要性。

0 人收藏 0 人点赞

#theoretical-ml

通过混合反馈在广义线性带臂中进行最佳臂识别

arXiv cs.AI ↗ · 2026-05-08 缓存

本文介绍了一种用于广义线性带臂中最佳臂识别的混合 Track-and-Stop 算法，该算法统一了绝对反馈和相对反馈。作者提出了一种基于似然比的置信序列以自适应分配查询，并证明了该方法在样本效率上优于基线方法。

0 人收藏 0 人点赞

#theoretical-ml

模仿学习：性能如何？

ML at Berkeley ↗ · 2021-04-28 缓存

本文分析了一篇近期发表的学术论文，该论文为模仿学习算法提供了一个分类框架，通过矩匹配技术对这些算法进行分类，并分析其理论模仿差距界限。

0 人收藏 0 人点赞

theoretical-ml

提交意见反馈