在中间训练阶段使用自生成数据可提升语言模型中强化学习的性能
摘要
本文探讨了在大型语言模型的中间训练阶段使用多样化的自生成数据如何提高强化学习的有效性,尤其是在推理任务方面。
arXiv:2605.08472v1 公告类型:新论文
摘要:大型语言模型(LLMs)中强化学习(RL)的有效性取决于强化学习之前及期间所使用的数据的性质和多样性。特别是,推理问题往往可以通过多种不同的推理方式来解答,而训练数据中仅包含有限的解题方法可能会限制强化学习的效果。受此启发,我们研究了在强化学习训练之前,利用多样化的自生成数据进行中间训练作为一种中间步骤。具体而言,我们采用了一种引导式数据生成框架,依据 George Polya 的问题解决方法,为训练数据中的每个问题生成多个正确的答案变体,然后进行微调。我们首先从理论角度分析了这种中间训练如何提升强化学习的性能,并解释了策略梯度更新如何激励模型结合多种解题方法。随后,我们通过实验证明,使用我们的中间训练数据进行初始化的强化学习模型,在各种数学推理基准测试以及其他分布外(OOD)任务(如代码生成和叙事推理)上均取得了持续的性能提升。总体而言,我们的研究表明,语言模型通过自生成数据学习多种问题解决方法,有助于后续的强化学习。
查看缓存全文
缓存时间: 2026/05/12 07:15
# 利用自我生成的数据进行中训练可提升语言模型的强化学习效果 来源:https://arxiv.org/abs/2605.08472 查看 PDF (https://arxiv.org/pdf/2605.08472) > 摘要:大型语言模型(LLMs)中强化学习(RL)的有效性取决于强化学习之前和期间所使用的数据的性质和多样性。特别是,推理问题往往可以通过依赖不同推理形式的多种方法来解决,而训练数据中仅接触有限范围的方法可能会限制强化学习的效果。基于这一动机,我们探讨了在强化学习训练之前,利用多样化的自我生成数据进行中训练作为中间步骤。具体而言,我们采用了一种受乔治·波利亚(George Polya)问题解决策略引导的自举数据生成框架,为训练数据中的每个问题生成多个正确答案变体,然后进行微调。我们首先从理论角度阐述这种中训练如何改善强化学习,并解释策略梯度更新如何激励结合多种方法。随后,我们通过实证研究证明,使用我们的中训练数据初始化的强化学习模型,在各种数学推理基准测试以及代码生成和叙事推理等其他分布外(OOD)任务上均实现了持续改进。总体而言,我们的研究表明,语言模型通过自我生成的数据学习多种问题解决策略,有助于后续的强化学习。 ## 提交历史 来自:Aswin Ravikumar Rangasamy Veerasamy \[查看邮件 (https://arxiv.org/show-email/ca2f8806/2605.08472)\] **\[v1\]** 2026年5月8日,星期五 20:46:35 UTC (1,820 KB)
相似文章
利用自生成数据的中期训练提升语言模型中的强化学习
本文提出在强化学习之前,对语言模型进行基于自生成多样化推理轨迹的中期训练,通过让模型接触多种有效的解题方法,展示了在数学基准测试上强化学习性能的提升。
@neural_avb: https://x.com/neural_avb/status/2072294078805684613
本论文介绍了Autodata,这是一种利用智能“数据科学家”AI的方法,通过迭代生成、验证和优化来自动创建高质量合成数据集,该方法特别针对强化学习(GRPO)进行了优化,以提升语言模型的推理能力。
强化学习激发对未见语言的语境翻译学习
本文提出了一种强化学习方法,使大型语言模型能够通过利用上下文中的语言知识来翻译未见过的语言,其表现优于上下文学习和监督微调。
通过在精选数据集上进行训练来改进语言模型行为
OpenAI 研究表明,通过在针对特定行为价值观的小型精选数据集(<100 个示例)上进行微调,可以显著改进语言模型的行为,且效果随着模型规模增大而提高。该方法为用户提供了工具,以便根据特定应用调整模型以符合《宪章》的价值观。
大型语言模型能否模仿人类语音进行临床评估?基于LLM的数据增强方法用于认知评分预测
本文提出了一种基于大型语言模型的数据增强框架,利用GPT-5从书面锚点生成合成口语独白,用于从语音中预测认知评分。一种相似性引导的选择策略持续降低了预测误差,特别是对于少数低分参与者。