标签
介绍HPML,一种将多智能体系统的联合更新场投影到度量梯度分量上以稳定和改进多智能体强化学习的方法。它提供了理论保证,并在CTDE基准测试上展示了改进的稳定性和回报。
提出MAVIC,一种多智能体强化学习方法,在指令边界修正价值估计,以在遵循外部自然语言指令的同时保持基础任务性能。