@NielsRogge: 什么是中间训练?预训练与后训练之间的阶段 一个基础模型在更小、精选的数据集上继续训练……
摘要
解释中间训练作为预训练和后训练之间的一个阶段,基础模型在精选数据上继续训练,以增强特定能力,然后再进行指令微调。
什么是中间训练?
预训练与后训练之间的阶段
一个基础模型在更小、精选的数据混合物上继续训练,旨在增强原始预训练未充分覆盖的能力,例如多语言能力、领域知识或长上下文扩展。
它通常保持类似预训练的目标,但使用更高质量或更有针对性的数据,以便后续的指令微调、偏好微调或RL能够在更强能力的基础上塑造行为。
在此了解更多:https://paperswithcode.co/methods/mid-training…
查看缓存全文
缓存时间: 2026/06/02 15:43
什么是中期训练?
介于预训练和后训练之间的阶段
基础模型会在一个更小、经过精心策划的数据混合集上继续训练,这些数据旨在增强原始预训练过程中未充分涵盖的能力,例如多语言能力、领域知识或长上下文扩展。
它通常保持类似于预训练的目标,但使用更高质量或更有针对性的数据,以便后续的指令微调、偏好微调或强化学习可以在更强的能力基础上塑造行为。
了解更多:https://paperswithcode.co/methods/mid-training…
相似文章
Anthropic 研究人员详细介绍“模型规范中期训练”,该训练在预训练和微调之间增加一个阶段,以提升对齐训练的泛化能力
Anthropic 研究人员提出模型规范中期训练(MSM),这是一种介于预训练和微调之间的新训练阶段,旨在改善模型从对齐训练中泛化的能力,并减少代理性对齐失误。
@anyscalecompute: LLM 后训练是新的基线。选择错误的方法或 GPU 配置会导致浪费 36 小时的运行。推出…
Anyscale 推出了一款新的 LLM 后训练 Agent Skill,可自动选择最优的微调方法(SFT、DPO、GRPO 等)并生成可随时启动的配置,帮助避免 GPU 运行浪费。
早期数据暴露提高后续微调的鲁棒性
本文表明,将后训练数据混合到预训练中(早期暴露)可以提高模型在后续微调后保留能力的鲁棒性,挑战了即时后训练性能预测保留的观点。对135M和1B模型的受控实验表明,早期暴露一致地改善了上游保留和下游性能之间的权衡。
@bradenjhancock: 换句话说:人类正在教教师模型如何像优秀的人类教师教其他人那样教其他模…
人类正在训练教师模型,使其以循序渐进的方式教学生模型,并对跳跃式教学进行惩罚,从而提高模型的智能。
@AnjneyMidha: 非常酷,通过让模型在早期阶段比严格训练方式更灵活地学习,实现了2-3倍的训练加速…
一种新的训练方法通过允许模型在早期阶段更灵活地学习,实现了2-3倍的加速,类似于在家教育相对于工厂式教育的优势。