multi-agent-reinforcement-learning

#multi-agent-reinforcement-learning

学会匹配：具有时间扩展反馈的双边匹配

arXiv cs.LG ↗ · 昨天缓存

本文介绍了一个具有时间扩展反馈的双边匹配框架，将其建模为部分可观测的马尔可夫博弈，包含昂贵筛选、噪声观测和动态变化的潜在特征。作者提出了多智能体强化学习基准Learn2Match，并展示了独立PPO在社会福利方面优于bandit基线，但信息摩擦损失更高。

0 人收藏 0 人点赞

#multi-agent-reinforcement-learning

arXiv cs.LG ↗ · 2026-06-01 缓存

本文提出了一种分布式方法，用于约束多智能体强化学习，该方法采用状态增强策略学习和对偶变量上的邻居间一致性，以在满足全局资源约束的同时实现智能体数量线性扩展。在智能电网需求响应上的实验表明，一致性协调对可行性至关重要：与集中式训练方法不同，它能够扩展到数千个智能体。

0 人收藏 0 人点赞

#multi-agent-reinforcement-learning

arXiv cs.AI ↗ · 2026-05-29 缓存

本文介绍了一种可微分的基于信念的对手塑造（D-BOS）方法，这是一种一阶方法，将观察者的信念视为被塑造的状态，并通过信念更新动态进行微分，从而允许在隐藏角色多智能体环境中，最优策略自然地源于环境的奖励结构。

0 人收藏 0 人点赞

#multi-agent-reinforcement-learning

arXiv cs.LG ↗ · 2026-05-21 缓存

本文提出了一种多智能体强化学习框架，该框架同时训练自动驾驶车辆和具有个性驱动乱穿马路行为的行人，与单智能体方法相比，碰撞率降低了30%，并展示了更真实的交互场景。

0 人收藏 0 人点赞

#multi-agent-reinforcement-learning

Hugging Face Daily Papers ↗ · 2026-05-20 缓存

本文介绍了SLIM，一种极简架构，在多智能体强化学习中解耦通信与策略表示，在带宽约束下以最小性能下降实现最先进性能。

0 人收藏 0 人点赞

#multi-agent-reinforcement-learning

arXiv cs.LG ↗ · 2026-05-15 缓存

本文提供了实证证据，表明量子纠缠在多智能体强化学习中提供了可测量的优势，通过CHSH游戏和协作导航任务展示了相对于经典基线的性能提升。

0 人收藏 0 人点赞

#multi-agent-reinforcement-learning

arXiv cs.AI ↗ · 2026-05-11 缓存

本文介绍了 Diamond Attention，这是一种用于多智能体强化学习的方法，通过引入结构化随机性来打破对称性，从而实现同质智能体之间的角色区分，在 XOR 游戏等对称任务中实现了完美的协调。

0 人收藏 0 人点赞