model-plasticity

标签

Cards List
#model-plasticity

当RL在SFT后失效:恢复模型可塑性以实现稳健的SFT到RL交接

arXiv cs.LG · 2天前 缓存

本文研究了在大型语言模型的先SFT后RL流程中,过度监督微调(SFT)后模型可塑性的丧失问题,并提出了一种名为Rejuvenation的方法,该方法通过基于基线的模型融合和定向神经元重置来恢复可塑性,从而持续提升RL性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈