标签
本文提出了一种统一的算法框架,用于在划分拟阵约束下的分布式在线子模最大化,在完全信息和赌博机反馈两种情况下均实现了次线性 (1-1/e)-遗憾保证。此外,还引入了一种有界随机管道取整方案,以确保累积采样违规保持次线性。
ALSO引入了一个多智能体社交模拟中的在线策略优化框架,将多轮交互建模为对抗性赌博机问题,并利用神经代理进行奖励预测。在Sotopia基准上的实验表明,它优于静态基线和现有优化方法。