diversity-collapse

标签

Cards List
#diversity-collapse

不要让收益FADE:解析强化学习中的策略梯度权重

arXiv cs.LG · 昨天 缓存

本文介绍了FADE(Focal Advantage with Dynamic Entropy),一种自适应优势函数,能在大型语言模型的强化学习后训练过程中动态调度梯度权重,与静态基线相比,实现了更快的收敛和更好的准确率-多样性平衡。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈