多域强化学习中跨域干扰与恢复的局部扰动理论

Hugging Face Daily Papers 论文

摘要

本文提出了一种局部扰动理论,用于解释多域强化学习中的跨域干扰现象。研究表明,干扰主要由低维冲突子空间中的二阶损伤项驱动,并证明短暂的域刷新或无需训练的回滚操作能够选择性地恢复丢失的能力。

强化学习(RL)后训练能够提升大语言模型(LLM)在数学推理、代码生成、问答和创意写作(CW)等单个领域中的表现,但在一个领域上的训练往往会降低其他领域的性能。现有的基于灾难性遗忘或全局梯度冲突的解释并不完备:即使全模型梯度近乎正交,仍可能发生显著干扰。我们发现,单域强化学习产生的参数编辑稀疏且幅度较小,变化最大的神经元之间重叠较弱,而不同域之间共享大量活跃计算路径,这些路径上的更新方向决定了它们是协同作用还是相互冲突。基于这一观察,我们在多域强化学习的局部扰动模型下证明:后续域的训练主要通过一个二阶损伤项损害早期域,在观察到的稀疏路径结构下,该损伤项集中于一个低维共享冲突子空间。此外,短暂的域刷新会压缩该子空间上的有害成分,从而实现对特定能力的恢复,同时附带损伤有限。与理论一致,在Code→Math→QA→CW的训练顺序后,对Math进行短暂的再训练刷新,可将Math性能从57.66恢复至66.04,同时基本保持其他域的性能,平均得分达到66.39。除刷新外,针对Math-QA对的稀疏代理冲突坐标集进行无需训练的回滚操作,也能部分恢复Math性能,直接提供了局部损伤的代理级证据。这些结果为多域强化学习中的干扰与恢复提供了局部化机制的合理解释。
查看原文
查看缓存全文

缓存时间: 2026/06/03 07:36

论文页面 - 多领域强化学习中跨域干扰与恢复的局部扰动理论

来源:https://huggingface.co/papers/2606.02398

摘要

语言模型中的多领域强化学习通过共享计算路径导致性能下降,但定向刷新和回滚技术可以有选择性地恢复丢失的能力,且副作用最小。

强化学习(https://huggingface.co/papers?q=Reinforcement%20learning)后训练能提升大型语言模型(https://huggingface.co/papers?q=large%20language%20models)(LLMs)在数学推理、代码生成、问答和创意写作(CW)等个别领域的能力,但在一个领域训练往往会降低其他领域的性能。基于灾难性遗忘(https://huggingface.co/papers?q=catastrophic%20forgetting)或全局梯度冲突(https://huggingface.co/papers?q=gradient%20conflict)的现有解释并不完整:即使全模型梯度近乎正交,也可能发生显著的干扰。我们表明,单领域RL会产生稀疏、小幅度参数编辑(https://huggingface.co/papers?q=parameter%20edits),且变化最大的神经元之间重叠较弱,但不同领域仍然共享大量活跃计算路径,在这些路径上,更新方向决定了它们协同作用还是相互冲突。基于此观察,我们在多领域RL的局部扰动模型(https://huggingface.co/papers?q=local%20perturbation%20model)下证明,后领域训练主要通过一个二阶损伤项(https://huggingface.co/papers?q=second-order%20damage%20term)损害前领域,而在所观察到的稀疏路径结构下,该项集中在低维共享冲突子空间(https://huggingface.co/papers?q=conflict%20subspace)中。此外,短期领域刷新(https://huggingface.co/papers?q=domain%20refresh)能收缩该子空间上的有害成分,从而实现选择性恢复且附带损伤有限。与理论一致,在Code→Math→QA→CW序列后进行短暂的Re-Math刷新,可将Math从57.66恢复至66.04,同时基本保持其他领域的性能,最终获得最佳平均分数66.39。除了刷新,针对Math-QA对的稀疏代理冲突坐标集进行无需训练的回滚(https://huggingface.co/papers?q=rollback),能部分恢复Math,为局部损伤提供了直接的代理级证据。这些结果提供了多领域RL中干扰与恢复的局部机制性解释。

查看arXiv页面(https://arxiv.org/abs/2606.02398)查看PDF(https://arxiv.org/pdf/2606.02398)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.02398)

在你的代理中获取此论文:

hf papers read 2606\.02398

没有最新CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

无模型链接此论文

在模型README.md中引用arxiv.org/abs/2606.02398即可从此页面链接。

引用此论文的数据集0

无数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2606.02398即可从此页面链接。

引用此论文的Space0

无Space链接此论文

在Space README.md中引用arxiv.org/abs/2606.02398即可从此页面链接。

包含此论文的收藏集0

无收藏集包含此论文

将此论文添加到收藏集(https://huggingface.co/new-collection)即可从此页面链接。

相似文章

重新思考LLM强化学习中的散度正则化

Hugging Face Daily Papers

本文介绍了DRPO,它用平滑的优势加权二次正则化器替代了DPPO中的硬掩码,通过提供信任区域边界之外的连续梯度校正,提高了LLM强化学习的稳定性和效率。

多轮推理中信息分片段到达时的处理:可扩展分片与记忆增强强化学习

arXiv cs.CL

本文针对大语言模型在多轮对话中因信息分散而表现不佳的“迷失在对话”问题,提出了一种可扩展的分片流水线,将单轮问答数据集转化为多轮训练数据,并利用基于可验证奖励的强化学习训练一个维持紧凑滚动记忆的记忆增强策略,从而提高了多轮推理准确性,并零样本泛化到更困难的任务。

面向强化学习后训练的跨轮次自适应展开优化

arXiv cs.LG

本文提出了CERO,一种用于LLM强化学习后训练的跨轮次自适应展开优化方法。该方法利用贝叶斯后验方差,在提示和轮次之间分配固定的展开预算,以最大化样本效率,实现了理论遗憾界,并在数学推理任务上优于GRPO。