利用自生成数据的中期训练提升语言模型中的强化学习
摘要
本文提出在强化学习之前,对语言模型进行基于自生成多样化推理轨迹的中期训练,通过让模型接触多种有效的解题方法,展示了在数学基准测试上强化学习性能的提升。
查看缓存全文
缓存时间: 2026/05/20 22:40
论文页面 - 基于自生成数据的中间训练提升语言模型中的强化学习
来源:https://huggingface.co/papers/2605.08472 很高兴分享我们的新论文 🚀
基于自生成数据的中间训练提升语言模型中的强化学习 我们研究了一个简单的问题:能否先教会模型多种解决同一问题的正确方式,从而让强化学习更有效?不局限于强化单一推理轨迹,我们能否在强化学习开始前让模型暴露于更丰富的有效方法空间?
Tweet01Hook (https://cdn-uploads.huggingface.co/production/uploads/6585eb3c7838841ee4ce9207/h0LKb7m4zaZuBgRviZm1Q.gif)
我们的研究思路很简单。在强化学习之前,我们用同一问题的多种正确解法对模型进行中间训练,这样当强化学习开始时,它是在更丰富的先验集合上运行,而非单一狭窄的推理模式。重要的是,这些推理痕迹是由同一个基础模型自生成的,该模型随后会被用于强化学习训练。没有人工编写的思维链,也没有从更强的教师模型进行蒸馏。
Tweet02Setup (https://cdn-uploads.huggingface.co/production/uploads/6585eb3c7838841ee4ce9207/5w_P1OXk2VUkr0KwDsWz3.gif)
为了保证解决方案的多样性,我们借鉴了乔治·波利亚《怎样解题》中的解题启发式方法。对于每个问题,模型被提示使用不同的方法求解:类比、逆向推理、分解、引入辅助元素、逻辑逐步论证、灵感突现等。这样,我们为同一个基础问题生成了结构上不同的推理痕迹。
Tweet03Heuristics (https://cdn-uploads.huggingface.co/production/uploads/6585eb3c7838841ee4ce9207/CeQpay4Qa34ieUaomch0V.gif)
生成的解经过两步过滤。首先,基于规则的验证只保留包含正确最终答案的响应。然后,一个奖励模型对响应遵循预期启发式方法的程度进行评分。每个(问题,启发式方法)对中得分最高的正确响应被选中,从而为每个问题提供多个正确的、针对特定启发式方法的解题痕迹。🧠
Tweet04Filter (https://cdn-uploads.huggingface.co/production/uploads/6585eb3c7838841ee4ce9207/TWjDFzpIV6D1vA-cLxPdm.gif)
为什么这有助于强化学习?我们的理论观点:在推理分支点上,对n种正确方法进行中间训练会产生多个高概率的延续,形成一个n模态分布。在正梯度下,强化学习能够有意义地更新所有n个模态,而不是强化单一模态。在负梯度下,从采样方法中移除的概率质量会重新分配给剩余的n-1个主导模态,即模型知道的其它有效方法。这就是强化学习学会组合中间训练期间引入的各种方法的机制。
Tweet05Theory (https://cdn-uploads.huggingface.co/production/uploads/6585eb3c7838841ee4ce9207/S1NUrGjYv_5Ve2A9JQMEU.gif)
实验表明,这改进了基于GRPO的强化学习。在Llama-3.2-3B-Instruct上,使用我们的启发式引导中间训练初始化的模型在六个数学基准测试中始终优于普通RL和STaR+RL,并且在更大的pass@k下优势更加明显。在pass@64时,平均得分从普通RL的44.21提升到n=16时的48.09。📊
Tweet06Results (https://cdn-uploads.huggingface.co/production/uploads/6585eb3c7838841ee4ce9207/H83O6-ogSxxeKs4fZN1pu.gif)
我们最有趣的发现之一是:强化学习不仅仅使用中间训练中的单个方法,它还会组合这些方法。我们使用基于LLM的分类器,对64种波利亚式启发式方法进行分析推理痕迹。在n=16时,经过强化学习训练的模型在56.7%的链条中组合了多种解题方法,而在强化学习之前这一比例仅为23.3%。这种组合率随着n的增大而上升。像“博尔扎诺+分解”或“重述+分解+执行”这样的组合在强化学习后稳定出现,尽管它们在中间训练期间从未同时出现过。组合行为是由强化学习本身完成的。🔗
分析中的另外四个发现:在固定的实例级别预算下,463个问题使用16种方法的表现优于7408个问题使用1种方法,在强化学习后相对提升约7%。这意味着在中间训练期间,学习更多的解题方法比学习解决更多问题更有益。
正确性 vs. 多样性:多样化但不正确的推理痕迹的表现低于普通RL。解题方法错误越多,性能下降越严重。多样性本身不够,正确性至关重要。
比蒸馏更多样化:我们的自生成数据的Vendi得分为13.81,而QwQ-32B蒸馏得分为10.95,尽管来自一个弱得多的模型,但在强化学习后性能更好。
泛化到数学之外:尽管启发式方法以数学为中心,但在HumanEval(代码)和MuSR(叙事推理)上的提升表明,波利亚的解题方法具有迁移性。
结论:强化学习的性能不仅取决于强化学习阶段本身,还取决于模型之前接触到的分布。在多样化的、自生成的、正确的推理痕迹上进行中间训练能提升后续的强化学习,并且这种效果是由强化学习学会组合中间训练期间引入的方法所驱动的。
Tweet09Takeaway (https://cdn-uploads.huggingface.co/production/uploads/6585eb3c7838841ee4ce9207/Ni78zSRisAyMjifKMgzQ3.gif)
相似文章
在中间训练阶段使用自生成数据可提升语言模型中强化学习的性能
本文探讨了在大型语言模型的中间训练阶段使用多样化的自生成数据如何提高强化学习的有效性,尤其是在推理任务方面。
方向对齐缓解语言模型强化学习中的奖励作弊
本文通过更新几何研究语言模型强化学习中的奖励作弊,识别出优化漂移是一个关键因素。它提出可信方向投影,将梯度约束在干净的参考子空间内,从而延迟捷径利用并保持任务性能。
超越 GRPO 与策略内蒸馏:语言模型后训练的经验性“稀疏至稠密”奖励原则
本文提出了一种用于语言模型后训练的经验性“稀疏至稠密”奖励原则,主张应使用稀疏奖励配合稀缺的标注数据进行教师模型发现,并使用稠密奖励通过蒸馏进行学生模型压缩。作者证明,这种连接稀疏强化学习与策略内蒸馏的分阶段方法,在数学基准测试中优于在部署规模模型上直接运行 GRPO 的效果。
强化学习激发对未见语言的语境翻译学习
本文提出了一种强化学习方法,使大型语言模型能够通过利用上下文中的语言知识来翻译未见过的语言,其表现优于上下文学习和监督微调。
叛逆的学生:通过自蒸馏 RLVR 反转教师信号以进行推理探索
本文介绍了 RLRT,这是一种在自蒸馏过程中反转教师信号的方法,旨在强化学生模型成功的偏离行为,从而增强大语言模型的推理探索能力。