mid-training

标签

Cards List
#mid-training

@NielsRogge: 什么是中间训练?预训练与后训练之间的阶段 一个基础模型在更小、精选的数据集上继续训练……

X AI KOLs Timeline · 2026-06-02 缓存

解释中间训练作为预训练和后训练之间的一个阶段,基础模型在精选数据上继续训练,以增强特定能力,然后再进行指令微调。

0 人收藏 0 人点赞
#mid-training

MIRA:面向源感知数据选择的中间训练评分锚定方法

Hugging Face Daily Papers · 2026-05-29 缓存

MIRA是一个用于大语言模型开发中间训练阶段的数据选择框架,它自适应地按数据源构建质量评分标准,使用教师模型提出维度并蒸馏为轻量级评分器。与全语料训练相比,仅使用一半的token即可实现更优性能。

0 人收藏 0 人点赞
#mid-training

在中间训练阶段使用自生成数据可提升语言模型中强化学习的性能

arXiv cs.AI · 2026-05-12 缓存

本文探讨了在大型语言模型的中间训练阶段使用多样化的自生成数据如何提高强化学习的有效性,尤其是在推理任务方面。

0 人收藏 0 人点赞
#mid-training

利用自生成数据的中期训练提升语言模型中的强化学习

Hugging Face Daily Papers · 2026-05-08 缓存

本文提出在强化学习之前,对语言模型进行基于自生成多样化推理轨迹的中期训练,通过让模型接触多种有效的解题方法,展示了在数学基准测试上强化学习性能的提升。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈