bandit

标签

Cards List
#bandit

具有有界采样违规的分布式在线赌博机子模最大化

arXiv cs.LG · 15小时前 缓存

本文提出了一种统一的算法框架,用于在划分拟阵约束下的分布式在线子模最大化,在完全信息和赌博机反馈两种情况下均实现了次线性 (1-1/e)-遗憾保证。此外,还引入了一种有界随机管道取整方案,以确保累积采样违规保持次线性。

0 人收藏 0 人点赞
#bandit

ALSO:面向社交智能体的对抗性在线策略优化

arXiv cs.AI · 2026-05-18 缓存

ALSO引入了一个多智能体社交模拟中的在线策略优化框架,将多轮交互建模为对抗性赌博机问题,并利用神经代理进行奖励预测。在Sotopia基准上的实验表明,它优于静态基线和现有优化方法。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈