当RL在SFT后失效:恢复模型可塑性以实现稳健的SFT到RL交接
摘要
本文研究了在大型语言模型的先SFT后RL流程中,过度监督微调(SFT)后模型可塑性的丧失问题,并提出了一种名为Rejuvenation的方法,该方法通过基于基线的模型融合和定向神经元重置来恢复可塑性,从而持续提升RL性能。
arXiv:2606.09932v1 公告类型:新
摘要:监督微调(SFT)后接强化学习(RL)已成为大型语言模型(LLM)后训练的标准流程。SFT预期为RL提供有用的行为先验,以进一步增强模型能力。然而,经过过度SFT的检查点在RL中往往只表现出有限的改进。我们将这一失败归因于模型可塑性的丧失:即由SFT初始化的策略在后续RL中被有效重塑的能力降低。为了更好地理解这一现象,我们从多个角度进行了详细分析,包括参数变化、输出空间和RL优化动态。我们的结果表明,过度SFT的模型倾向于产生过度自信的token分布,并呈现尖锐的参数景观,这使得它们在RL阶段更难以优化。为了实现更稳健的SFT到RL交接,我们提出了一种简单而有效的方法——\texttt{Rejuvenation},它在保留有用的SFT获得先验的同时恢复可塑性。Rejuvenation利用基于基线的模型融合来减少过度SFT引起的漂移,并通过定向神经元重置来缓解模型僵化。在数学推理任务和智能体任务上的实验结果均表明,我们的方法在过度训练的SFT模型上持续提升RL性能,同时增强了对分布外任务的泛化能力。
查看缓存全文
缓存时间: 2026/06/10 06:18
# 恢复模型可塑性以实现稳健的SFT到RL过渡
来源:https://arxiv.org/html/2606.09932
Runze Liu¹∗ Jiashun Liu¹∗ Xu Wan² Yuqian Fu³ Ling Pan¹
¹香港科技大学 ²浙江大学 ³多模态人工智能系统国家重点实验室,自动化研究所
###### 摘要
监督微调(Supervised Fine-Tuning, SFT)后接强化学习(Reinforcement Learning, RL)已成为大语言模型(LLM)后训练的标准流程。SFT旨在为RL提供有用的行为先验,以进一步增强模型能力。然而,经过过多SFT的检查点在RL中往往表现出有限的改进。我们将此失败归因于模型可塑性(model plasticity)的丧失:即经过SFT初始化的策略在后续RL中有效重塑的能力降低。为了更好地理解这一现象,我们从多个角度进行了详细分析,包括参数变化、输出空间和RL优化动态。结果表明,过度SFT的模型倾向于产生过度自信的标记分布,并表现出尖锐的参数景观,这使得它们在RL阶段更难优化。为了实现更稳健的SFT到RL过渡,我们提出了**Rejuvenation**,一种简单而有效的方法,在保留有用的SFT获取先验的同时恢复可塑性。Rejuvenation 利用基于基线的模型融合来减少过度SFT引起的漂移,并配合有针对性的神经元重置来缓解模型僵化。在数学推理任务和智能体任务上的实验结果表明,我们的方法在过度训练的SFT模型上持续提升了RL性能,同时也增强了对分布外任务的泛化能力。
††*等量贡献
## 1 引言
后训练已成为释放大语言模型(LLM)推理和智能体能力的关键阶段(OpenAI, 2024 (https://arxiv.org/html/2606.09932#bib.bib56); Guo等人, 2025 (https://arxiv.org/html/2606.09932#bib.bib60))。许多实际系统采用SFT后接RL(Guo等人, 2025 (https://arxiv.org/html/2606.09932#bib.bib60))的流程,其中监督微调(SFT)(Ouyang等人, 2022 (https://arxiv.org/html/2606.09932#bib.bib136); Bai等人, 2022 (https://arxiv.org/html/2606.09932#bib.bib137))首先教会模型遵循指令、生成期望格式并获取冷启动知识,随后强化学习(RL)(Shao等人, 2024 (https://arxiv.org/html/2606.09932#bib.bib59); Zhang等人, 2025a (https://arxiv.org/html/2606.09932#bib.bib109))根据任务奖励进一步优化策略(Yue等人, 2025 (https://arxiv.org/html/2606.09932#bib.bib93); Liu等人, 2025a (https://arxiv.org/html/2606.09932#bib.bib98); Wang等人, 2025a (https://arxiv.org/html/2606.09932#bib.bib105), b (https://arxiv.org/html/2606.09932#bib.bib104); Liu等人, 2025c (https://arxiv.org/html/2606.09932#bib.bib110); Zhang等人, 2026b (https://arxiv.org/html/2606.09932#bib.bib108))。在此流程中,SFT不仅仅是为了模仿高质量解决方案,还决定了RL继承的初始化。因此,该流程依赖于一个隐含假设:在通过模仿获取有用行为后,SFT检查点仍然应该作为奖励驱动优化的合适起点。
参考标题
图1:Rejuvenation 概览。
然而,实现强监督行为所需的SFT量可能与RL后产生最佳最终模型所需的SFT量不一致。直观上,如果SFT过早停止,模型可能对RL准备不足,缺乏高效优化所需的指令遵循模式或任务特定行为。同时,如果SFT持续太长时间,模型可能过度特化于监督数据,导致得到的检查点为RL进一步改进策略和泛化留下有限空间(Chu等人, 2025 (https://arxiv.org/html/2606.09932#bib.bib11))。因此,尽管广泛成功,从SFT到RL的过渡仍然是一个脆弱且计算昂贵的过程。一个关键但常被忽视的挑战是确定应该使用哪个SFT检查点作为RL初始策略。标准的SFT指标(例如,训练损失、验证准确率)衡量的是模仿质量,而非检查点进行奖励驱动改进的能力。自然的补救措施是早停(Li等人, 2026 (https://arxiv.org/html/2606.09932#bib.bib21)),但它仍然假设可以可靠地识别适当的停止点,因此未能解决核心问题。最近的工作通过更好的数据(Huang等人, 2026 (https://arxiv.org/html/2606.09932#bib.bib3); Zhao等人, 2026 (https://arxiv.org/html/2606.09932#bib.bib49))、目标(Fu等人, 2026 (https://arxiv.org/html/2606.09932#bib.bib29); Zhu等人, 2026b (https://arxiv.org/html/2606.09932#bib.bib33))或训练配方(Zhang等人, 2025b (https://arxiv.org/html/2606.09932#bib.bib48))改进了SFT阶段,但这些方法主要改变了SFT轨迹,而非提供RL就绪性的可靠标准。因此,实践者仍然经常需要从多个SFT检查点启动RL以确定合适的过渡点。这种搜索代价高昂,且其结果可能对RL超参数和优化噪声敏感。
在本文中,我们旨在分析并解决SFT到RL过渡中的这一关键困境:不足的SFT可能过早停止模仿学习,阻止模型获取有用技能;而过训练的SFT则变得高度抵抗通过RL进行进一步改进。为了更好地理解这个问题,我们详细分析了在RL下扩展SFT如何改变模型行为和后续优化动态。我们发现,与**ModSFT**模型相比,**OverSFT**模型倾向于产生更尖锐、更过度自信的输出分布和更不平滑的参数空间,显示出较大的梯度范数但有限的性能提升和更小的参数更新幅度。这些发现表明,过度SFT不仅过拟合了监督数据,还使得策略变得抵抗,在后续RL阶段变得不那么有效适应。我们将这种失败模式识别为**模型可塑性**¹⁹⁹的丧失:模型变得难以通过RL重塑。基于这一观察,我们提出了**Rejuvenation**,一种简单而有效的后处理机制,可实现稳健的SFT到RL过渡以恢复模型可塑性,避免了复杂的SFT损失修改和昂贵的检查点搜索。我们的关键见解是:SFT应该提供有用的行为先验,但不能以牺牲可塑性为代价。我们的方法是一个双层策略。首先,在全局层面,我们利用基于基线的模型融合来减少过度SFT引起的漂移,同时保留有用行为。在局部层面,我们引入基于logit归因的有针对性神经元重置机制,选择性地恢复最负责导致预测崩溃的过度自信LLM中的多样性。如图1 (https://arxiv.org/html/2606.09932#S1.F1) 所示,我们的方法有效缓解了由过度SFT导致的僵化,同时保留了从充分SFT中获取的有效行为先验。
我们在数学推理任务和智能体任务上评估了**Rejuvenation**。实验表明,我们的方法不仅一致地从先前的**OverSFT**模型中恢复RL改进,而且在分布外(OOD)任务上取得了优于**ModSFT**模型的性能,具有更好的泛化能力。本工作的主要贡献可总结如下:
1. 我们识别了SFT后接RL流程中的一个失败模式:SFT到RL过渡困境,即完全训练的SFT模型丧失可塑性并限制了RL改进。
2. 我们提供了多角度的详细分析,揭示了过度SFT导致RL期间有效梯度减少,进而导致熵崩溃并从根本上损害RL优化动态。
3. 我们提出了一种简单、廉价且有效的“rejuvenate”方法,通过模型融合和神经元重置事后恢复模型可塑性,使其对不同的SFT到RL过渡具有鲁棒性。
4. 我们在数学任务和智能体任务上展示了我们方法的有效性,表明它一致地从**OverSFT**检查点恢复RL改进,并在OOD泛化上优于**ModSFT**基线。
## 2 相关工作
##### LLM后训练中的SFT和RL。
近期工作表明,RL已成为LLM后训练的有效方法(OpenAI, 2024 (https://arxiv.org/html/2606.09932#bib.bib56); Guo等人, 2025 (https://arxiv.org/html/2606.09932#bib.bib60); Shao等人, 2024 (https://arxiv.org/html/2606.09932#bib.bib59); Yu等人, 2025 (https://arxiv.org/html/2606.09932#bib.bib87))。许多方法旨在更好地整合SFT和RL,例如改进离线策略数据的使用(Yan等人, 2025 (https://arxiv.org/html/2606.09932#bib.bib24); Chen等人, 2025 (https://arxiv.org/html/2606.09932#bib.bib25); Liu等人, 2025d (https://arxiv.org/html/2606.09932#bib.bib27); Ma等人, 2026 (https://arxiv.org/html/2606.09932#bib.bib28); Huang等人, 2025 (https://arxiv.org/html/2606.09932#bib.bib30)),设计统一训练目标(Liu等人, 2025b (https://arxiv.org/html/2606.09932#bib.bib26); Fu等人, 2026 (https://arxiv.org/html/2606.09932#bib.bib29); Zhang等人, 2026c (https://arxiv.org/html/2606.09932#bib.bib32); Lv等人, 2025 (https://arxiv.org/html/2606.09932#bib.bib34); Gan等人, 2026 (https://arxiv.org/html/2606.09932#bib.bib35)),或使用重要性加权目标以更好地将SFT与RL优化对齐(Zhu等人, 2026b (https://arxiv.org/html/2606.09932#bib.bib33); Qin和Springenberg, 2025 (https://arxiv.org/html/2606.09932#bib.bib18); Zhang等人, 2026a (https://arxiv.org/html/2606.09932#bib.bib15))。同时,近期证据表明,混合策略方法与标准SFT后接RL流程之间的比较可能对SFT实现细节敏感,且精心控制的SFT后接RL仍然是强基线(Limozin等人, 2026 (https://arxiv.org/html/2606.09932#bib.bib36))。几项近期研究进一步分析了SFT和RL为何导致不同的泛化行为:SFT倾向于记忆监督数据,而RL可以改善分布外泛化(Chu等人, 2025 (https://arxiv.org/html/2606.09932#bib.bib11));RL可能部分修复SFT引入的OOD遗忘,但仅在合适的检查点范围内(Jin等人, 2025b (https://arxiv.org/html/2606.09932#bib.bib12), a (https://arxiv.org/html/2606.09932#bib.bib13));高SFT分数不一定是RL后性能的可靠预测指标(Kang等人, 2026 (https://arxiv.org/html/2606.09932#bib.bib14); Zhang等人, 2026a (https://arxiv.org/html/2606.09932#bib.bib15))。这些工作揭示了SFT到RL过渡的脆弱性,但主要诊断了检查点选择或重新设计了SFT目标。相比之下,我们探讨的是:一个已经过度训练的SFT模型的可塑性是否可以在RL开始前事后恢复。
##### SFT中的过拟合与正则化。
近期,许多工作探索了如何在SFT期间防止过拟合或过度策略漂移。诸如GEM(Li等人, 2025 (https://arxiv.org/html/2606.09932#bib.bib17))、PSFT(Zhu等人, 2026b (https://arxiv.org/html/2606.09932#bib.bib33))、ASFT(Zhu等人, 2026a (https://arxiv.org/html/2606.09932#bib.bib20))和CurioSFT(Wang等人, 2026 (https://arxiv.org/html/2606.09932#bib.bib22))等方法引入了辅助正则化损失以保持模型多样性。DFT(Wu等人, 2026 (https://arxiv.org/html/2606.09932#bib.bib19))、AESL(Li等人, 2026 (https://arxiv.org/html/2606.09932#bib.bib21))和ProFit(Liu等人, 2026 (https://arxiv.org/html/2606.09932#bib.bib23))在交叉熵损失中引入了基于概率的加权。然而,它们主要关注在SFT期间防止过拟合或从一开始设计更好的SFT目标。我们的设置不同,我们假设已经获得了过度训练的SFT模型,并探讨其可塑性是否可以被恢复以用于后续RL。
## 3 诊断与恢复过度训练模型的可塑性
在本节中,我们分析为什么过度训练的SFT模型难以通过RL改进,然后介绍两种事后恢复操作。我们首先研究在应用任何RL更新之前,过度SFT在参数空间和输出空间改变了什么,以理解过渡特定问题:*持续的SFT是否将检查点移动到一个对后续RL优化不太有利的状态?*然后我们将这些变化与较差的RL可训练性联系起来,其中大的梯度范数并未转化为有效的参数移动或有意义的性能提升(第3.2节 (https://arxiv.org/html/2606.09932#S3.SS2))。受这些观察启发,我们在两个层面恢复可塑性:基于基线的模型融合在全局上将模型拉向更平滑的区域(第3.3节 (https://arxiv.org/html/2606.09932#S3.SS3)),而归因引导的神经元重置在局部恢复负责异常logits的高贡献方向(第3.4节 (https://arxiv.org/html/2606.09932#S3.SS4))。
### 3.1 过度训练如何改变SFT模型?
#### 3.1.1 参数空间
我们在数学SFT数据上训练EvoLM-4B(Qi等人, 2025 (https://arxiv.org/html/2606.09932#bib.bib37)),并沿SFT过程保存检查点。我们将适度训练的检查点(epoch=2)记为**ModSFT**,过度训练的检查点(epoch=32)记为**OverSFT**。更多训练细节见第4.1节 (https://arxiv.org/html/2606.09932#S4.SS1)和附录B (https://arxiv.org/html/2606.09932#A2)。
参考标题
图2:不同SFT检查点的参数变化及统计。
##### 过度SFT导致大的参数偏移和权重幅度。
我们首先研究SFT如何改变模型参数。对于每个检查点,我们可视化相对于基础模型的逐元素参数差异。如图2 (https://arxiv.org/html/2606.09932#S3.F2) 和图3 (https://arxiv.org/html/2606.09932#S3.F3) 第一行所示,我们观察到**ModSFT**仅引入了适中且相对平滑的参数变化,而**OverSFT**导致了极大的参数偏移,并且在偏移中存在尖锐的尖峰,导致更大的权重幅度。这些尖峰表明,过度训练并非简单地继续改进适度SFT找到的相同解决方案,而是驱使一小部分参数显著远离基础模型。此外,这些观察在所有模块和层中一致。更多可视化见附录C (https://arxiv.org/html/2606.09932#A3)。
参考标题
图3:SFT和RL引起的`layers.0.self_attn.v_proj.weight`参数变化。
##### 后续RL引起的移动远比前序SFT引起的漂移小。
我们通过绘制以下差异进一步研究RL如何改变模型参数:(1) RL vs SFT 和 (2) RL vs 基础模型。图3 (https://arxiv.org/html/2606.09932#S3.F3) 显示,后续RL阶段仅引入了比SFT引起的偏移小得多的变化。这表明一旦SFT导致了相对较大的参数变化,RL的优化能力可能受到限制,因为优化器在高度偏移的景观中难以找到有效的更新方向。这种效应与权重衰减和自适应学习率的互动有关,但根本原因在于过度SFT将模型推入一个对RL不那么有利的区域,而不是简单的梯度消失。
#### 3.1.2 输出空间
##### 过度SFT导致输出分布尖锐(过度自信)和熵崩溃。
我们通过检查SFT数据上的logit和softmax输出分布来研究模型行为。具体来说,我们计算每个标记位置的预测logits的最大值(max logit)、最大概率(max prob)和softmax分布的熵。图4 (https://arxiv.org/html/2606.09932#S3.F4) 给出了这些统计信息。我们观察到,随着SFT的进行,max logit和max prob持续增加,而熵持续下降。这意味着模型变得越来越过度自信,将越来越高的概率分配给少数预测词。对于**OverSFT**模型,这种分配是如此极端,以至于有效梯度在RL中变得较小,因为优势估计(reward - baseline)乘以近似为1的概率会带来较小的更新信号。此外,由于熵接近于零,策略采样具有低随机性,限制了RL探索多样化轨迹以发现更好策略的能力。因此,这种熵崩溃是限制后续RL进展的关键因素。
### 3.2 与RL可训练性的链接
我们通过测量RL第一轮训练中的有效梯度来量化RL可训练性。具体来说,我们计算有效梯度范数 ||∇θ J(θ)|| 并将其与参数更新幅度和奖励增加相关联。图5 (https://arxiv.org/html/2606.09932#S3.F5) 显示了关键趋势。
尽管**OverSFT**模型显示出较大的梯度范数,但这种大的梯度并未转化为更大的参数更新幅度或更快的奖励改善。相反,我们发现大的梯度集中在高度过拟合的特征上,而这些特征对RL目标的改进贡献甚微。这类似于梯度噪声注入:当梯度范数主要由高度特异性且与奖励无关的方向主导时,策略更新效率低下。
我们将**OverSFT**模型的这种失败模式称为**可塑性丧失**:模型变得对有价值的RL更新具有抵抗性,尽管梯度范数表面上较大。根本原因是过度SFT不仅使参数偏离基础模型,还使优化景观变得尖锐,过多的自由参数沿着高度过拟合的方向排列。因此,RL更新往往被这些方向锚定或高度敏感,对通用任务改进贡献有限。
### 3.3 基于基线的模型融合
基于上述观察,我们提出通过**基于基线的模型融合**(**BaMF**)来恢复可塑性。关键思想是:过度SFT模型(θOver)已经显著偏离了更平滑的初始基础点(θBase),但这种偏离包含了有用的任务特定知识。同时,θBase由通用预训练初始化提供,代表了更平滑、更具可塑性的状态。通过将θOver拉回θBase,我们可以保留SFT获取的有用行为,同时恢复可塑性,以实现RL中的有效优化。
我们的BaMF定义为:
θBaMF = θBase + α ⋅ (θOver − θBase)
其中α ∈ [0, 1] 是一个插值系数。当α = 1时,我们保留完整的OverSFT模型;α = 0时,回退到基础模型。通过选择α < 1,我们部分抵消过度SFT引起的漂移,从而有效降低参数空间的锐度,同时保持SFT获取的任务适配的定向好处。在数学上,融合等效于将原始权重向基础模型缩小,类似于在权重空间中循环学习率缩放。在我们的实验中,α = 0.5 在大多数情况下表现良好。
### 3.4 基于归因的神经元重置
虽然BaMF全局平滑了参数,但它可能不足以恢复输出多样性,特别是当关键神经元高度过度自信时。因此,我们提出**基于归因的神经元重置**(**ANR**),这是一种针对对预测崩溃贡献最大的神经元的局部操作。我们的关键见解是:LLM中的少数神经元(通常是由SFT引起的)对过度自信的logits贡献不成比例。通过重置这些特定神经元,我们可以更直接地恢复输出熵。
具体实现:对于每个标记位置t,我们有过度SFT模型产生的logitsℓOver(t) ∈ R^V(V是词汇表大小)。假设我们有一个参考模型(例如基础模型)产生的logitsℓRef(t)。我们通过计算logits差异来量化预测崩溃:
Δ(t) = ℓOver(t) − ℓRef(t)
然后,我们通过梯度归因方法确定对logits差异贡献最大的神经元。对于每个中间层l中的神经元i,我们计算:
Attr(l,i) = ∑_t ∑_j Δ(t)_j ⋅ (∂ℓOver(t)_j / ∂h(l,i)) ⋅ h(l,i)
其中h(l,i)是第l层第i个神经元的激活值。我们选择累计归因最大的前k%的神经元进行重置。重置操作将这些神经元的权重和偏置重新初始化为其基础模型值。
我们在实验中设k = 1%(即重置归因最高的1%神经元),并在附录D (https://arxiv.org/html/2606.09932#A4) 中对不同k值进行消融。
我们表述了**Rejuvenation**的整体流程:
1. 使用BaMF获得θBaMF。
2. 基于θBase和θOver进行ANR。
3. 从该检查点开始RL优化。
## 4 实验
我们在数学推理任务和智能体任务上评估**Rejuvenation**。
### 4.1 数学推理
**设置**。我们使用EvoLM-4B(Qi等人, 2025 (https://arxiv.org/html/2606.09932#bib.bib37))作为基础模型。SFT数据为公开的数学数据集(NuminaMath-CoT,约100k样本)的3200个样本。我们在SFT过程中每2个epoch保存检查点。我们选取epoch=2作为**ModSFT**,epoch=32作为**OverSFT**。RL使用GRPO(Shao等人, 2024 (https://arxiv.org/html/2606.09932#bib.bib59))算法,在相同的SFT数据上进行RL训练。评估使用MATH(Hendrycks等人, 2021 (https://arxiv.org/html/2606.09932#bib.bib38))、GSM8K(Cobbe等人, 2021 (https://arxiv.org/html/2606.09932#bib.bib39))和AIME(美国邀请赛数学考试)测试集。对于OOD评估,我们使用SVAMP(Arkil等人, 2021 (https://arxiv.org/html/2606.09932#bib.bib40))和ASDiv(Miao等人, 2021 (https://arxiv.org/html/2606.09932#bib.bib41))。
**结果**。表1 (https://arxiv.org/html/2606.09932#S4.T1) 显示了结果。**OverSFT**模型(α=1)在RL中仅显示有限改进。**ModSFT**模型(α=0.5)显示较大改进。**Rejuvenation**(BaMF+ANR)在许多情况下甚至优于**ModSFT**,特别是在OOD数据集上。这支持了我们的方法不仅恢复可塑性,还改善泛化。
参考标题
表1:数学推理结果。所有RL结果均为5次运行的平均值。**Rejuvenation**一致改善了**OverSFT**模型的RL改进,并在OOD任务上达到与**ModSFT**相当或更优的性能。
### 4.2 智能体任务
**设置**。我们使用EvoLM-4B,SFT在智能体特定数据(来自AgentInstruct(Zeng等人, 2024 (https://arxiv.org/html/2606.09932#bib.bib42))的子集)上进行。我们再次保存**ModSFT**(epoch=1)和**OverSFT**(epoch=8)检查点。RL使用GRPO,奖励基于任务完成(例如,工具使用成功)。评估环境为WebShop(Yao等人, 2022 (https://arxiv.org/html/2606.09932#bib.bib43))和ALFWorld(Shridhar等人, 2021 (https://arxiv.org/html/2606.09932#bib.bib44))。
**结果**。表2 (https://arxiv.org/html/2606.09932#S4.T2) 显示了结果。与数学任务类似,**Rejuvenation**在**OverSFT**上恢复了RL改进,并实现了比**ModSFT**更好的性能。
参考标题
表2:智能体任务结果。**Rejuvenation**在**OverSFT**模型上恢复了RL改进,并达到与**ModSFT**相比具有竞争力的性能。
### 4.3 消融和进一步分析
**BaMF中的α系数**。我们在数学设置中变化α ∈ {0.1, 0.3, 0.5, 0.7, 0.9},并报告RL后的性能。结果(图6 (https://arxiv.org/html/2606.09932#S4.F6))表明α = 0.5在ID和OOD上均表现良好。α过小(过度恢复到基础模型)丧失了SFT获取的知识,α过大则保留了过多的过度自信。
**ANR中的重置比例**。我们变化k ∈ {0.5%, 1%, 2%, 5%}。结果(图7 (https://arxiv.org/html/2606.09932#S4.F7))显示k = 1%是合理的。
**可塑性指标**。我们观察到**Rejuvenation**显著增加了输出熵并降低了max prob,表明恢复了输出多样性。
## 5 结论
我们识别了SFT到RL过渡中的可塑性丧失问题,并提供了多角度分析。我们提出了**Rejuvenation**,一种结合基于基线的模型融合和归因引导神经元重置的简单有效方法。实验证明我们的方法恢复了过度训练SFT模型的可塑性,实现了与适度训练模型相当或更优的RL改进和OOD泛化。
**局限性**。我们的方法在α和k方面有超参数,尽管标准值(0.5, 1%)在实践中有效。探索自适应选择策略是未来的方向。此外,我们的方法侧重于事后恢复;在训练过程中整合可塑性正则化可能更理想。
**致谢**。本研究得到了[待补充]的支持。
## 参考文献
[参考文献列表,与英文原文一致,此处省略以节省空间]
## 附录
[附录内容,与英文原文一致,此处省略以节省空间]相似文章
灾难性遗忘的机制起源:为什么RL比SFT更好地保留电路?
本文研究了LLM中灾难性遗忘的机制起源,发现强化学习比监督微调更好地保留了内部计算电路,从而减少了对先前能力的遗忘。
预训练期间的RL探索:重新审视LLM训练的策略优化
哈佛大学的研究人员挑战了标准的LLM训练流程,证明强化学习可以在预训练期间有效应用,而不仅仅是在SFT之后。他们发现数据组成比模型规模更重要,并提出并行平均RL和SFT目标的方法,该方法在所有讨论的其他训练方法中表现出色,跨所有指标均优于它们,同时保持了通用能力。
超越 SFT 到 RL:多模态强化学习中的黑盒策略蒸馏预对齐
本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。
利用快慢后继特征平衡可塑性与稳定性
本文研究了渐变非平稳环境下强化学习中的稳定性-可塑性困境,发现通过跨多个时间尺度的突触巩固来稳定后继特征,其效果优于专注于可塑性的方法。
@LakshyAAAgrawal: 从丰富的文本反馈(错误、轨迹、部分推理)中学习,对于LLM优化来说,优于仅使用标量奖励。…
快速-慢速训练(FST)将上下文优化(通过GEPA)与通过强化学习进行的模型权重更新交替进行,在数学、代码和物理推理上实现了比单独使用RL高3倍的样本效率,同时保持了可塑性并实现了持续学习。