标签
提出了在有限适应性下具有广义线性奖励的上下文Slate Bandit算法,实现了与非线性参数无关的遗憾界。批量式和少切换算法计算高效,且在经验上优于基线,包括在语言模型示例选择任务中。
本文介绍了一种用于广义线性带臂中最佳臂识别的混合 Track-and-Stop 算法,该算法统一了绝对反馈和相对反馈。作者提出了一种基于似然比的置信序列以自适应分配查询,并证明了该方法在样本效率上优于基线方法。