在中间训练阶段使用自生成数据可提升语言模型中强化学习的性能
摘要
本文探讨了在大型语言模型的中间训练阶段使用多样化的自生成数据如何提高强化学习的有效性,尤其是在推理任务方面。
arXiv:2605.08472v1 公告类型:新论文
摘要:大型语言模型(LLMs)中强化学习(RL)的有效性取决于强化学习之前及期间所使用的数据的性质和多样性。特别是,推理问题往往可以通过多种不同的推理方式来解答,而训练数据中仅包含有限的解题方法可能会限制强化学习的效果。受此启发,我们研究了在强化学习训练之前,利用多样化的自生成数据进行中间训练作为一种中间步骤。具体而言,我们采用了一种引导式数据生成框架,依据 George Polya 的问题解决方法,为训练数据中的每个问题生成多个正确的答案变体,然后进行微调。我们首先从理论角度分析了这种中间训练如何提升强化学习的性能,并解释了策略梯度更新如何激励模型结合多种解题方法。随后,我们通过实验证明,使用我们的中间训练数据进行初始化的强化学习模型,在各种数学推理基准测试以及其他分布外(OOD)任务(如代码生成和叙事推理)上均取得了持续的性能提升。总体而言,我们的研究表明,语言模型通过自生成数据学习多种问题解决方法,有助于后续的强化学习。
查看缓存全文
缓存时间: 2026/05/12 07:15
# 利用自我生成的数据进行中训练可提升语言模型的强化学习效果 来源:https://arxiv.org/abs/2605.08472 查看 PDF (https://arxiv.org/pdf/2605.08472) > 摘要:大型语言模型(LLMs)中强化学习(RL)的有效性取决于强化学习之前和期间所使用的数据的性质和多样性。特别是,推理问题往往可以通过依赖不同推理形式的多种方法来解决,而训练数据中仅接触有限范围的方法可能会限制强化学习的效果。基于这一动机,我们探讨了在强化学习训练之前,利用多样化的自我生成数据进行中训练作为中间步骤。具体而言,我们采用了一种受乔治·波利亚(George Polya)问题解决策略引导的自举数据生成框架,为训练数据中的每个问题生成多个正确答案变体,然后进行微调。我们首先从理论角度阐述这种中训练如何改善强化学习,并解释策略梯度更新如何激励结合多种方法。随后,我们通过实证研究证明,使用我们的中训练数据初始化的强化学习模型,在各种数学推理基准测试以及代码生成和叙事推理等其他分布外(OOD)任务上均实现了持续改进。总体而言,我们的研究表明,语言模型通过自我生成的数据学习多种问题解决策略,有助于后续的强化学习。 ## 提交历史 来自:Aswin Ravikumar Rangasamy Veerasamy \[查看邮件 (https://arxiv.org/show-email/ca2f8806/2605.08472)\] **\[v1\]** 2026年5月8日,星期五 20:46:35 UTC (1,820 KB)
相似文章
通过在精选数据集上进行训练来改进语言模型行为
OpenAI 研究表明,通过在针对特定行为价值观的小型精选数据集(<100 个示例)上进行微调,可以显著改进语言模型的行为,且效果随着模型规模增大而提高。该方法为用户提供了工具,以便根据特定应用调整模型以符合《宪章》的价值观。
大型语言模型能否模仿人类语音进行临床评估?基于LLM的数据增强方法用于认知评分预测
本文提出了一种基于大型语言模型的数据增强框架,利用GPT-5从书面锚点生成合成口语独白,用于从语音中预测认知评分。一种相似性引导的选择策略持续降低了预测误差,特别是对于少数低分参与者。
ReAD:面向大型语言模型的强化引导能力蒸馏
本文提出了 ReAD,这是一种强化引导的能力蒸馏框架,通过考虑大型语言模型中的跨能力迁移来优化 token 预算。与现有基线相比,该方法在提升下游效用的同时,减少了有害溢出。
高效训练语言模型执行中间填充任务
OpenAI 提出了一种简单的数据增强技术,使自回归语言模型能够执行填充中间(FIM)文本生成任务,同时不损害从左到右的性能。文章还提供了广泛的消融研究和训练此类模型的最佳实践。
利用自监督指南提升视觉指令调优
本文提出通过将自监督任务表达为自然语言指令,增强多模态语言模型中的视觉指令调优,从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务(如旋转预测、颜色匹配和跨视角对应)重构为图像-指令-响应对,该方法仅需在训练数据中注入3%-10%的视觉化指令,便能在多个基准测试中实现一致的性能提升。