标签
本文介绍了 Diamond Attention,这是一种用于多智能体强化学习的方法,通过引入结构化随机性来打破对称性,从而实现同质智能体之间的角色区分,在 XOR 游戏等对称任务中实现了完美的协调。