model-plasticity

#model-plasticity

当RL在SFT后失效：恢复模型可塑性以实现稳健的SFT到RL交接

arXiv cs.LG ↗ · 2天前缓存

本文研究了在大型语言模型的先SFT后RL流程中，过度监督微调（SFT）后模型可塑性的丧失问题，并提出了一种名为Rejuvenation的方法，该方法通过基于基线的模型融合和定向神经元重置来恢复可塑性，从而持续提升RL性能。

0 人收藏 0 人点赞