标签
解释中间训练作为预训练和后训练之间的一个阶段,基础模型在精选数据上继续训练,以增强特定能力,然后再进行指令微调。
MIRA是一个用于大语言模型开发中间训练阶段的数据选择框架,它自适应地按数据源构建质量评分标准,使用教师模型提出维度并蒸馏为轻量级评分器。与全语料训练相比,仅使用一半的token即可实现更优性能。
本文探讨了在大型语言模型的中间训练阶段使用多样化的自生成数据如何提高强化学习的有效性,尤其是在推理任务方面。
本文提出在强化学习之前,对语言模型进行基于自生成多样化推理轨迹的中期训练,通过让模型接触多种有效的解题方法,展示了在数学基准测试上强化学习性能的提升。