标签
本文比较了上下文组合赌博机和策略梯度算法在大型电动汽车车队分散式智能充电中的应用,使用了包含动态定价和可再生能源数据的真实模拟环境。
HyPOLE提出了一种在部分可观测性下进行多智能体强化学习的框架,它通过HyperLTL时序逻辑进行超属性引导学习,并与集中训练分散执行(CTDE)集成,在SMAC、MessySMAC和WildFire基准测试上展示了优于基线的结果。
介绍R2D-RL,一个强化学习环境,通过共享内存通信将RoboCup 2D足球模拟服务器与基于Python的多智能体强化学习工作流连接起来,支持全场和基于场景的训练,可配置对手和奖励塑造。
TRIDENT是一种新颖的多智能体强化学习框架,打破了混合离散-连续动作、硬安全约束和物理支配动力学之间的耦合,实现了可证明安全的协调,保证了收敛到约束纳什均衡,并显著减少了训练期间的违规行为。
一种基于合约的组合式防护方法,无需集中式运行时控制即可确保多智能体强化学习中的全局安全性,利用局部LTL义务和多臂老虎机优化团队奖励。
本文介绍了一个具有时间扩展反馈的双边匹配框架,将其建模为部分可观测的马尔可夫博弈,包含昂贵筛选、噪声观测和动态变化的潜在特征。作者提出了多智能体强化学习基准Learn2Match,并展示了独立PPO在社会福利方面优于bandit基线,但信息摩擦损失更高。
本文提出了一种分布式方法,用于约束多智能体强化学习,该方法采用状态增强策略学习和对偶变量上的邻居间一致性,以在满足全局资源约束的同时实现智能体数量线性扩展。在智能电网需求响应上的实验表明,一致性协调对可行性至关重要:与集中式训练方法不同,它能够扩展到数千个智能体。
本文介绍了一种可微分的基于信念的对手塑造(D-BOS)方法,这是一种一阶方法,将观察者的信念视为被塑造的状态,并通过信念更新动态进行微分,从而允许在隐藏角色多智能体环境中,最优策略自然地源于环境的奖励结构。
本文提出了一种多智能体强化学习框架,该框架同时训练自动驾驶车辆和具有个性驱动乱穿马路行为的行人,与单智能体方法相比,碰撞率降低了30%,并展示了更真实的交互场景。
本文介绍了SLIM,一种极简架构,在多智能体强化学习中解耦通信与策略表示,在带宽约束下以最小性能下降实现最先进性能。
本文提供了实证证据,表明量子纠缠在多智能体强化学习中提供了可测量的优势,通过CHSH游戏和协作导航任务展示了相对于经典基线的性能提升。
本文介绍了 Diamond Attention,这是一种用于多智能体强化学习的方法,通过引入结构化随机性来打破对称性,从而实现同质智能体之间的角色区分,在 XOR 游戏等对称任务中实现了完美的协调。