bandit

#bandit

具有有界采样违规的分布式在线赌博机子模最大化

arXiv cs.LG ↗ · 昨天缓存

本文提出了一种统一的算法框架，用于在划分拟阵约束下的分布式在线子模最大化，在完全信息和赌博机反馈两种情况下均实现了次线性 (1-1/e)-遗憾保证。此外，还引入了一种有界随机管道取整方案，以确保累积采样违规保持次线性。

0 人收藏 0 人点赞

#bandit

arXiv cs.AI ↗ · 2026-05-18 缓存

ALSO引入了一个多智能体社交模拟中的在线策略优化框架，将多轮交互建模为对抗性赌博机问题，并利用神经代理进行奖励预测。在Sotopia基准上的实验表明，它优于静态基线和现有优化方法。

0 人收藏 0 人点赞