标签
本文介绍了FADE(Focal Advantage with Dynamic Entropy),一种自适应优势函数,能在大型语言模型的强化学习后训练过程中动态调度梯度权重,与静态基线相比,实现了更快的收敛和更好的准确率-多样性平衡。