标签
本文提出绝对汤普森采样(ATS),这是对汤普森采样的一种改进,通过使用绝对探索噪声确保期望上的乐观性,在保持计算效率的同时实现了更简单的UCB风格遗憾分析。它达到了与现有TS界相匹配的遗憾,并引入了一种集成变体,该变体收敛于UCB行为。
本文提出了一种新颖的基于多臂赌博机算法的深度神经网络结构化神经元剪枝框架,并在多种任务上验证了其有效性。
普渡大学研究团队推出 Mango,一种多智能体网页导航系统,利用全局站点结构和汤普森采样选择最优起始 URL,在 WebVoyager 和 WebWalkerQA 基准测试中显著提升成功率。