标签
DOT-MoE将密集层分解形式化为可微最优传输问题,能够高效训练稀疏MoE模型,在将活跃参数减少50%的同时保留原始模型90%的性能。
本文介绍了一种可微分的基于信念的对手塑造(D-BOS)方法,这是一种一阶方法,将观察者的信念视为被塑造的状态,并通过信念更新动态进行微分,从而允许在隐藏角色多智能体环境中,最优策略自然地源于环境的奖励结构。