标签
本文揭示了,即使在条件良好的设置下,使用非二次正则化项的 Mirror Descent 比 Gradient Descent 对初始化敏感得多(指数级),这对强化学习和LLM后训练中的可重复性具有重要意义。
本文证明,在海森兼容性条件下,在线梯度下降方法能够针对隐凸损失实现最优的√T遗憾值,解决了对抗性在线学习中的开放问题。同时,还将结果扩展至单点赌博机反馈,给出了T^{3/4}的期望遗憾界。
本文提出了面向函数约束变分不等式问题的镜像下降类算法,证明了对于有界单调算子与Lipschitz凸约束问题的最优收敛速率。此外,引入了一种改进方法以提升多约束场景下的效率。
本文提出了随机方差缩减估计的统一理论框架,通过新的Freedman不等式推导出高概率界,并改进了约束优化的预言机复杂度。