在中间训练阶段使用自生成数据可提升语言模型中强化学习的性能

arXiv cs.AI 2026/05/12 04:00 论文

摘要

本文探讨了在大型语言模型的中间训练阶段使用多样化的自生成数据如何提高强化学习的有效性，尤其是在推理任务方面。

arXiv:2605.08472v1 公告类型：新论文摘要：大型语言模型（LLMs）中强化学习（RL）的有效性取决于强化学习之前及期间所使用的数据的性质和多样性。特别是，推理问题往往可以通过多种不同的推理方式来解答，而训练数据中仅包含有限的解题方法可能会限制强化学习的效果。受此启发，我们研究了在强化学习训练之前，利用多样化的自生成数据进行中间训练作为一种中间步骤。具体而言，我们采用了一种引导式数据生成框架，依据 George Polya 的问题解决方法，为训练数据中的每个问题生成多个正确的答案变体，然后进行微调。我们首先从理论角度分析了这种中间训练如何提升强化学习的性能，并解释了策略梯度更新如何激励模型结合多种解题方法。随后，我们通过实验证明，使用我们的中间训练数据进行初始化的强化学习模型，在各种数学推理基准测试以及其他分布外（OOD）任务（如代码生成和叙事推理）上均取得了持续的性能提升。总体而言，我们的研究表明，语言模型通过自生成数据学习多种问题解决方法，有助于后续的强化学习。

查看原文

查看缓存全文

缓存时间: 2026/05/12 07:15

# 利用自我生成的数据进行中训练可提升语言模型的强化学习效果
来源：https://arxiv.org/abs/2605.08472
查看 PDF (https://arxiv.org/pdf/2605.08472)

> 摘要：大型语言模型（LLMs）中强化学习（RL）的有效性取决于强化学习之前和期间所使用的数据的性质和多样性。特别是，推理问题往往可以通过依赖不同推理形式的多种方法来解决，而训练数据中仅接触有限范围的方法可能会限制强化学习的效果。基于这一动机，我们探讨了在强化学习训练之前，利用多样化的自我生成数据进行中训练作为中间步骤。具体而言，我们采用了一种受乔治·波利亚（George Polya）问题解决策略引导的自举数据生成框架，为训练数据中的每个问题生成多个正确答案变体，然后进行微调。我们首先从理论角度阐述这种中训练如何改善强化学习，并解释策略梯度更新如何激励结合多种方法。随后，我们通过实证研究证明，使用我们的中训练数据初始化的强化学习模型，在各种数学推理基准测试以及代码生成和叙事推理等其他分布外（OOD）任务上均实现了持续改进。总体而言，我们的研究表明，语言模型通过自我生成的数据学习多种问题解决策略，有助于后续的强化学习。

## 提交历史

来自：Aswin Ravikumar Rangasamy Veerasamy \[查看邮件 (https://arxiv.org/show-email/ca2f8806/2605.08472)\] **\[v1\]** 2026年5月8日，星期五 20:46:35 UTC (1,820 KB)

在中间训练阶段使用自生成数据可提升语言模型中强化学习的性能

相似文章

利用自生成数据的中期训练提升语言模型中的强化学习

@neural_avb: https://x.com/neural_avb/status/2072294078805684613

强化学习激发对未见语言的语境翻译学习

通过在精选数据集上进行训练来改进语言模型行为

大型语言模型能否模仿人类语音进行临床评估？基于LLM的数据增强方法用于认知评分预测

提交意见反馈