regret-bounds

#regret-bounds

有限适应性下的上下文Slate GLM Bandits

arXiv cs.LG ↗ · 昨天缓存

提出了在有限适应性下具有广义线性奖励的上下文Slate Bandit算法，实现了与非线性参数无关的遗憾界。批量式和少切换算法计算高效，且在经验上优于基线，包括在语言模型示例选择任务中。

0 人收藏 0 人点赞

#regret-bounds

@HazanPrinceton: 正逢我们下周在ICML的教程，Annie发布了我们通用序列预处理论文的更新…

X AI KOLs Timeline ↗ · 2天前缓存

本次论文更新提出了一种通用序列预处理方法，该方法利用二阶VAW算法和Faber多项式，为边际稳定线性动态系统实现了无维度遗憾界。

0 人收藏 0 人点赞

#regret-bounds

面向上下文赌博机的图降维：近似平滑与噪声特征空间下的结构特定遗憾界

arXiv cs.LG ↗ · 3天前缓存

提出了GraphDR-LinUCB方法，一种面向具有图结构臂的上下文赌博机方法，该方法将特征投影到图的低频频谱子空间上。实现了首个基于频谱投影的上下文赌博机的遗憾界，并在真实数据集上相比全维度LinUCB实现了15倍的遗憾值降低。

0 人收藏 0 人点赞

#regret-bounds

强化学习中的精确遗忘

arXiv cs.LG ↗ · 2026-06-04 缓存

本文正式定义了强化学习中的精确遗忘问题，提出了一种用于表格型MDP的ρ-TV-稳定强化学习算法，该算法能以重训练成本的一小部分高效移除用户数据影响，并实现了接近最小最大最优的遗憾界。该工作已被ICML接收，并建立了ρ-TV-稳定强化学习算法的上下界。

0 人收藏 0 人点赞

#regret-bounds

从非凸到强凸：面向在线优化的曲率自适应FTPL算法

arXiv cs.LG ↗ · 2026-06-03 缓存

本文介绍了一种面向在线优化的曲率自适应跟随扰动的领导者（FTPL）算法，该算法采用时变扰动尺度，在非凸Lipschitz损失和强凸损失下均能实现最优遗憾界。

0 人收藏 0 人点赞

#regret-bounds

AdaWeather: 自适应混合概率天气预报与对数遗憾

arXiv cs.LG ↗ · 2026-06-03 缓存

介绍了AdaWeather，一个自适应框架，它利用机器学习和专家混合来组合多个概率天气预报，相比最佳的静态专家混合实现了对数遗憾，并在温度预报方面展示了实证改进。

0 人收藏 0 人点赞

#regret-bounds

私有随机决策理论在线学习中的最优间隔依赖遗憾

arXiv cs.LG ↗ · 2026-05-29 缓存

本文通过为私有随机决策理论在线学习提供最优间隔依赖遗憾算法，解决了COLT开放问题，达到了阶 (log K)/Δ_min + (log K)/ε 的下界。

0 人收藏 0 人点赞

#regret-bounds

通过算法等价实现隐凸损失的在线学习：最优遗憾、几何障碍与赌博机反馈

arXiv cs.LG ↗ · 2026-05-27 缓存

本文证明，在海森兼容性条件下，在线梯度下降方法能够针对隐凸损失实现最优的√T遗憾值，解决了对抗性在线学习中的开放问题。同时，还将结果扩展至单点赌博机反馈，给出了T^{3/4}的期望遗憾界。

0 人收藏 0 人点赞

#regret-bounds

通过分位数贝叶斯风险MDP实现在线强化学习中鲁棒性与探索的动态权衡

arXiv cs.LG ↗ · 2026-05-26 缓存

本文提出了一种用于在线强化学习的分位数贝叶斯风险感知MDP框架，该框架能够随时间自适应地平衡鲁棒性与探索，提供了理论遗憾界并展示了强大的实证性能。

0 人收藏 0 人点赞

#regret-bounds

在人机对齐下借助AI辅助决策的学习

arXiv cs.LG ↗ · 2026-05-14 缓存

本文研究了在人机对齐条件下学习借助AI做出最优决策的问题，表明对齐可以降低学习的复杂度，并给出了遗憾界。

0 人收藏 0 人点赞

regret-bounds

提交意见反馈