标签
提出了在有限适应性下具有广义线性奖励的上下文Slate Bandit算法,实现了与非线性参数无关的遗憾界。批量式和少切换算法计算高效,且在经验上优于基线,包括在语言模型示例选择任务中。
本次论文更新提出了一种通用序列预处理方法,该方法利用二阶VAW算法和Faber多项式,为边际稳定线性动态系统实现了无维度遗憾界。
提出了GraphDR-LinUCB方法,一种面向具有图结构臂的上下文赌博机方法,该方法将特征投影到图的低频频谱子空间上。实现了首个基于频谱投影的上下文赌博机的遗憾界,并在真实数据集上相比全维度LinUCB实现了15倍的遗憾值降低。
本文正式定义了强化学习中的精确遗忘问题,提出了一种用于表格型MDP的ρ-TV-稳定强化学习算法,该算法能以重训练成本的一小部分高效移除用户数据影响,并实现了接近最小最大最优的遗憾界。该工作已被ICML接收,并建立了ρ-TV-稳定强化学习算法的上下界。
本文介绍了一种面向在线优化的曲率自适应跟随扰动的领导者(FTPL)算法,该算法采用时变扰动尺度,在非凸Lipschitz损失和强凸损失下均能实现最优遗憾界。
介绍了AdaWeather,一个自适应框架,它利用机器学习和专家混合来组合多个概率天气预报,相比最佳的静态专家混合实现了对数遗憾,并在温度预报方面展示了实证改进。
本文通过为私有随机决策理论在线学习提供最优间隔依赖遗憾算法,解决了COLT开放问题,达到了阶 (log K)/Δ_min + (log K)/ε 的下界。
本文证明,在海森兼容性条件下,在线梯度下降方法能够针对隐凸损失实现最优的√T遗憾值,解决了对抗性在线学习中的开放问题。同时,还将结果扩展至单点赌博机反馈,给出了T^{3/4}的期望遗憾界。
本文提出了一种用于在线强化学习的分位数贝叶斯风险感知MDP框架,该框架能够随时间自适应地平衡鲁棒性与探索,提供了理论遗憾界并展示了强大的实证性能。