diversity-collapse

#diversity-collapse

不要让收益FADE：解析强化学习中的策略梯度权重

arXiv cs.LG ↗ · 2天前缓存

本文介绍了FADE（Focal Advantage with Dynamic Entropy），一种自适应优势函数，能在大型语言模型的强化学习后训练过程中动态调度梯度权重，与静态基线相比，实现了更快的收敛和更好的准确率-多样性平衡。

0 人收藏 0 人点赞