batched-algorithms

标签

Cards List
#batched-algorithms

有限适应性下的上下文Slate GLM Bandits

arXiv cs.LG · 7小时前 缓存

提出了在有限适应性下具有广义线性奖励的上下文Slate Bandit算法,实现了与非线性参数无关的遗憾界。批量式和少切换算法计算高效,且在经验上优于基线,包括在语言模型示例选择任务中。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈