标签
本文介绍了一种可微分的基于信念的对手塑造(D-BOS)方法,这是一种一阶方法,将观察者的信念视为被塑造的状态,并通过信念更新动态进行微分,从而允许在隐藏角色多智能体环境中,最优策略自然地源于环境的奖励结构。