multi-agent-reinforcement-learning

标签

Cards List
#multi-agent-reinforcement-learning

学会匹配:具有时间扩展反馈的双边匹配

arXiv cs.LG · 昨天 缓存

本文介绍了一个具有时间扩展反馈的双边匹配框架,将其建模为部分可观测的马尔可夫博弈,包含昂贵筛选、噪声观测和动态变化的潜在特征。作者提出了多智能体强化学习基准Learn2Match,并展示了独立PPO在社会福利方面优于bandit基线,但信息摩擦损失更高。

0 人收藏 0 人点赞
#multi-agent-reinforcement-learning

可扩展的约束多智能体强化学习:通过状态增强与一致性实现可分离动力学

arXiv cs.LG · 2026-06-01 缓存

本文提出了一种分布式方法,用于约束多智能体强化学习,该方法采用状态增强策略学习和对偶变量上的邻居间一致性,以在满足全局资源约束的同时实现智能体数量线性扩展。在智能电网需求响应上的实验表明,一致性协调对可行性至关重要:与集中式训练方法不同,它能够扩展到数千个智能体。

0 人收藏 0 人点赞
#multi-agent-reinforcement-learning

可微分的基于信念的对手塑造 (D-BOS)

arXiv cs.AI · 2026-05-29 缓存

本文介绍了一种可微分的基于信念的对手塑造(D-BOS)方法,这是一种一阶方法,将观察者的信念视为被塑造的状态,并通过信念更新动态进行微分,从而允许在隐藏角色多智能体环境中,最优策略自然地源于环境的奖励结构。

0 人收藏 0 人点赞
#multi-agent-reinforcement-learning

面向行人行为不确定性的安全自动驾驶的多智能体强化学习

arXiv cs.LG · 2026-05-21 缓存

本文提出了一种多智能体强化学习框架,该框架同时训练自动驾驶车辆和具有个性驱动乱穿马路行为的行人,与单智能体方法相比,碰撞率降低了30%,并展示了更真实的交互场景。

0 人收藏 0 人点赞
#multi-agent-reinforcement-learning

解耦通信与策略:带宽约束下的鲁棒多智能体强化学习

Hugging Face Daily Papers · 2026-05-20 缓存

本文介绍了SLIM,一种极简架构,在多智能体强化学习中解耦通信与策略表示,在带宽约束下以最小性能下降实现最先进性能。

0 人收藏 0 人点赞
#multi-agent-reinforcement-learning

多智能体强化学习中的量子优势

arXiv cs.LG · 2026-05-15 缓存

本文提供了实证证据,表明量子纠缠在多智能体强化学习中提供了可测量的优势,通过CHSH游戏和协作导航任务展示了相对于经典基线的性能提升。

0 人收藏 0 人点赞
#multi-agent-reinforcement-learning

有时需要随机性来实现协调

arXiv cs.AI · 2026-05-11 缓存

本文介绍了 Diamond Attention,这是一种用于多智能体强化学习的方法,通过引入结构化随机性来打破对称性,从而实现同质智能体之间的角色区分,在 XOR 游戏等对称任务中实现了完美的协调。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈