标签
本文介绍了一个具有时间扩展反馈的双边匹配框架,将其建模为部分可观测的马尔可夫博弈,包含昂贵筛选、噪声观测和动态变化的潜在特征。作者提出了多智能体强化学习基准Learn2Match,并展示了独立PPO在社会福利方面优于bandit基线,但信息摩擦损失更高。
本文提出了一种分布式方法,用于约束多智能体强化学习,该方法采用状态增强策略学习和对偶变量上的邻居间一致性,以在满足全局资源约束的同时实现智能体数量线性扩展。在智能电网需求响应上的实验表明,一致性协调对可行性至关重要:与集中式训练方法不同,它能够扩展到数千个智能体。
本文介绍了一种可微分的基于信念的对手塑造(D-BOS)方法,这是一种一阶方法,将观察者的信念视为被塑造的状态,并通过信念更新动态进行微分,从而允许在隐藏角色多智能体环境中,最优策略自然地源于环境的奖励结构。
本文提出了一种多智能体强化学习框架,该框架同时训练自动驾驶车辆和具有个性驱动乱穿马路行为的行人,与单智能体方法相比,碰撞率降低了30%,并展示了更真实的交互场景。
本文介绍了SLIM,一种极简架构,在多智能体强化学习中解耦通信与策略表示,在带宽约束下以最小性能下降实现最先进性能。
本文提供了实证证据,表明量子纠缠在多智能体强化学习中提供了可测量的优势,通过CHSH游戏和协作导航任务展示了相对于经典基线的性能提升。
本文介绍了 Diamond Attention,这是一种用于多智能体强化学习的方法,通过引入结构化随机性来打破对称性,从而实现同质智能体之间的角色区分,在 XOR 游戏等对称任务中实现了完美的协调。