regret-bounds

标签

Cards List
#regret-bounds

有限适应性下的上下文Slate GLM Bandits

arXiv cs.LG · 昨天 缓存

提出了在有限适应性下具有广义线性奖励的上下文Slate Bandit算法,实现了与非线性参数无关的遗憾界。批量式和少切换算法计算高效,且在经验上优于基线,包括在语言模型示例选择任务中。

0 人收藏 0 人点赞
#regret-bounds

@HazanPrinceton: 正逢我们下周在ICML的教程,Annie发布了我们通用序列预处理论文的更新…

X AI KOLs Timeline · 2天前 缓存

本次论文更新提出了一种通用序列预处理方法,该方法利用二阶VAW算法和Faber多项式,为边际稳定线性动态系统实现了无维度遗憾界。

0 人收藏 0 人点赞
#regret-bounds

面向上下文赌博机的图降维:近似平滑与噪声特征空间下的结构特定遗憾界

arXiv cs.LG · 3天前 缓存

提出了GraphDR-LinUCB方法,一种面向具有图结构臂的上下文赌博机方法,该方法将特征投影到图的低频频谱子空间上。实现了首个基于频谱投影的上下文赌博机的遗憾界,并在真实数据集上相比全维度LinUCB实现了15倍的遗憾值降低。

0 人收藏 0 人点赞
#regret-bounds

强化学习中的精确遗忘

arXiv cs.LG · 2026-06-04 缓存

本文正式定义了强化学习中的精确遗忘问题,提出了一种用于表格型MDP的ρ-TV-稳定强化学习算法,该算法能以重训练成本的一小部分高效移除用户数据影响,并实现了接近最小最大最优的遗憾界。该工作已被ICML接收,并建立了ρ-TV-稳定强化学习算法的上下界。

0 人收藏 0 人点赞
#regret-bounds

从非凸到强凸:面向在线优化的曲率自适应FTPL算法

arXiv cs.LG · 2026-06-03 缓存

本文介绍了一种面向在线优化的曲率自适应跟随扰动的领导者(FTPL)算法,该算法采用时变扰动尺度,在非凸Lipschitz损失和强凸损失下均能实现最优遗憾界。

0 人收藏 0 人点赞
#regret-bounds

AdaWeather: 自适应混合概率天气预报与对数遗憾

arXiv cs.LG · 2026-06-03 缓存

介绍了AdaWeather,一个自适应框架,它利用机器学习和专家混合来组合多个概率天气预报,相比最佳的静态专家混合实现了对数遗憾,并在温度预报方面展示了实证改进。

0 人收藏 0 人点赞
#regret-bounds

私有随机决策理论在线学习中的最优间隔依赖遗憾

arXiv cs.LG · 2026-05-29 缓存

本文通过为私有随机决策理论在线学习提供最优间隔依赖遗憾算法,解决了COLT开放问题,达到了阶 (log K)/Δ_min + (log K)/ε 的下界。

0 人收藏 0 人点赞
#regret-bounds

通过算法等价实现隐凸损失的在线学习:最优遗憾、几何障碍与赌博机反馈

arXiv cs.LG · 2026-05-27 缓存

本文证明,在海森兼容性条件下,在线梯度下降方法能够针对隐凸损失实现最优的√T遗憾值,解决了对抗性在线学习中的开放问题。同时,还将结果扩展至单点赌博机反馈,给出了T^{3/4}的期望遗憾界。

0 人收藏 0 人点赞
#regret-bounds

通过分位数贝叶斯风险MDP实现在线强化学习中鲁棒性与探索的动态权衡

arXiv cs.LG · 2026-05-26 缓存

本文提出了一种用于在线强化学习的分位数贝叶斯风险感知MDP框架,该框架能够随时间自适应地平衡鲁棒性与探索,提供了理论遗憾界并展示了强大的实证性能。

0 人收藏 0 人点赞
#regret-bounds

在人机对齐下借助AI辅助决策的学习

arXiv cs.LG · 2026-05-14 缓存

本文研究了在人机对齐条件下学习借助AI做出最优决策的问题,表明对齐可以降低学习的复杂度,并给出了遗憾界。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈