利用自生成数据的中期训练提升语言模型中的强化学习

Hugging Face Daily Papers 2026/05/08 00:00 论文

reinforcement-learning language-models self-generated-data mid-training reasoning diversity

摘要

本文提出在强化学习之前，对语言模型进行基于自生成多样化推理轨迹的中期训练，通过让模型接触多种有效的解题方法，展示了在数学基准测试上强化学习性能的提升。

强化学习（RL）在大型语言模型（LLM）中的有效性取决于RL之前和期间所用数据的性质与多样性。特别是，推理问题往往可以通过依赖于不同推理形式的多种方法来解决，而训练数据中仅接触有限范围的方法可能会限制RL的有效性。基于此，我们研究在RL训练之前，使用多样化的自生成数据进行中期训练作为中间步骤。具体来说，我们采用由George Polya解题方法引导的自举数据生成框架，为训练数据中的每个问题生成多个正确回答变体，然后进行微调。我们首先从理论角度阐述对这类数据进行中期训练如何改进RL，并解释策略梯度更新如何激励多种方法的结合。然后我们实证表明，使用我们的中期训练数据初始化的RL训练模型在多种数学推理基准测试以及其他分布外任务（如代码生成和叙事推理）上均取得一致的改进。总体而言，我们的研究表明，语言模型通过自生成数据学习多种解题方法有助于后续的RL。

查看原文

查看缓存全文

缓存时间: 2026/05/20 22:40

论文页面 - 基于自生成数据的中间训练提升语言模型中的强化学习

来源：https://huggingface.co/papers/2605.08472 很高兴分享我们的新论文 🚀

基于自生成数据的中间训练提升语言模型中的强化学习我们研究了一个简单的问题：能否先教会模型多种解决同一问题的正确方式，从而让强化学习更有效？不局限于强化单一推理轨迹，我们能否在强化学习开始前让模型暴露于更丰富的有效方法空间？

Tweet01Hook (https://cdn-uploads.huggingface.co/production/uploads/6585eb3c7838841ee4ce9207/h0LKb7m4zaZuBgRviZm1Q.gif)

我们的研究思路很简单。在强化学习之前，我们用同一问题的多种正确解法对模型进行中间训练，这样当强化学习开始时，它是在更丰富的先验集合上运行，而非单一狭窄的推理模式。重要的是，这些推理痕迹是由同一个基础模型自生成的，该模型随后会被用于强化学习训练。没有人工编写的思维链，也没有从更强的教师模型进行蒸馏。

Tweet02Setup (https://cdn-uploads.huggingface.co/production/uploads/6585eb3c7838841ee4ce9207/5w_P1OXk2VUkr0KwDsWz3.gif)

为了保证解决方案的多样性，我们借鉴了乔治·波利亚《怎样解题》中的解题启发式方法。对于每个问题，模型被提示使用不同的方法求解：类比、逆向推理、分解、引入辅助元素、逻辑逐步论证、灵感突现等。这样，我们为同一个基础问题生成了结构上不同的推理痕迹。

Tweet03Heuristics (https://cdn-uploads.huggingface.co/production/uploads/6585eb3c7838841ee4ce9207/CeQpay4Qa34ieUaomch0V.gif)

生成的解经过两步过滤。首先，基于规则的验证只保留包含正确最终答案的响应。然后，一个奖励模型对响应遵循预期启发式方法的程度进行评分。每个（问题，启发式方法）对中得分最高的正确响应被选中，从而为每个问题提供多个正确的、针对特定启发式方法的解题痕迹。🧠

Tweet04Filter (https://cdn-uploads.huggingface.co/production/uploads/6585eb3c7838841ee4ce9207/TWjDFzpIV6D1vA-cLxPdm.gif)

为什么这有助于强化学习？我们的理论观点：在推理分支点上，对n种正确方法进行中间训练会产生多个高概率的延续，形成一个n模态分布。在正梯度下，强化学习能够有意义地更新所有n个模态，而不是强化单一模态。在负梯度下，从采样方法中移除的概率质量会重新分配给剩余的n-1个主导模态，即模型知道的其它有效方法。这就是强化学习学会组合中间训练期间引入的各种方法的机制。

Tweet05Theory (https://cdn-uploads.huggingface.co/production/uploads/6585eb3c7838841ee4ce9207/S1NUrGjYv_5Ve2A9JQMEU.gif)

实验表明，这改进了基于GRPO的强化学习。在Llama-3.2-3B-Instruct上，使用我们的启发式引导中间训练初始化的模型在六个数学基准测试中始终优于普通RL和STaR+RL，并且在更大的pass@k下优势更加明显。在pass@64时，平均得分从普通RL的44.21提升到n=16时的48.09。📊

Tweet06Results (https://cdn-uploads.huggingface.co/production/uploads/6585eb3c7838841ee4ce9207/H83O6-ogSxxeKs4fZN1pu.gif)

我们最有趣的发现之一是：强化学习不仅仅使用中间训练中的单个方法，它还会组合这些方法。我们使用基于LLM的分类器，对64种波利亚式启发式方法进行分析推理痕迹。在n=16时，经过强化学习训练的模型在56.7%的链条中组合了多种解题方法，而在强化学习之前这一比例仅为23.3%。这种组合率随着n的增大而上升。像“博尔扎诺+分解”或“重述+分解+执行”这样的组合在强化学习后稳定出现，尽管它们在中间训练期间从未同时出现过。组合行为是由强化学习本身完成的。🔗

分析中的另外四个发现：在固定的实例级别预算下，463个问题使用16种方法的表现优于7408个问题使用1种方法，在强化学习后相对提升约7%。这意味着在中间训练期间，学习更多的解题方法比学习解决更多问题更有益。

正确性 vs. 多样性：多样化但不正确的推理痕迹的表现低于普通RL。解题方法错误越多，性能下降越严重。多样性本身不够，正确性至关重要。

比蒸馏更多样化：我们的自生成数据的Vendi得分为13.81，而QwQ-32B蒸馏得分为10.95，尽管来自一个弱得多的模型，但在强化学习后性能更好。

泛化到数学之外：尽管启发式方法以数学为中心，但在HumanEval（代码）和MuSR（叙事推理）上的提升表明，波利亚的解题方法具有迁移性。

结论：强化学习的性能不仅取决于强化学习阶段本身，还取决于模型之前接触到的分布。在多样化的、自生成的、正确的推理痕迹上进行中间训练能提升后续的强化学习，并且这种效果是由强化学习学会组合中间训练期间引入的方法所驱动的。

Tweet09Takeaway (https://cdn-uploads.huggingface.co/production/uploads/6585eb3c7838841ee4ce9207/Ni78zSRisAyMjifKMgzQ3.gif)

利用自生成数据的中期训练提升语言模型中的强化学习

论文页面 - 基于自生成数据的中间训练提升语言模型中的强化学习

相似文章

在中间训练阶段使用自生成数据可提升语言模型中强化学习的性能

方向对齐缓解语言模型强化学习中的奖励作弊

超越 GRPO 与策略内蒸馏：语言模型后训练的经验性“稀疏至稠密”奖励原则

强化学习激发对未见语言的语境翻译学习

叛逆的学生：通过自蒸馏 RLVR 反转教师信号以进行推理探索

提交意见反馈