标签
OpenBMB发布了UltraData-SFT-2605,一个包含1500万样本的高质量SFT数据集,用于微调如MiniCPM5-1B等AI模型,使其能在手机或笔记本电脑上运行。
OpenBMB 发布了 UltraData-SFT-2605,这是一个大规模数据集,包含超过 1500 万高质量样本,用于推理型大语言模型的监督微调(SFT),涵盖深度思考、非思考、数学、代码、知识、指令遵循和多语言数据。
我们提出LIFT,一种可学习性引导的扩散语言模型微调算法,该算法根据 token 难度和时间步对齐训练,在推理基准测试上取得了显著提升。
一项实验比较了三种监督微调数据格式(示范对话、第一人称陈述、合成文档)用于将C-3PO人格注入Qwen3-4B,发现第一人称陈述在泛化方面最佳,合成文档在事实知识方面最佳。
动态微调(DFT)被介绍为一种方法,它利用模型自身的 token 概率重新加权 SFT 损失,形成一个反馈循环,并添加前向KL散度来惩罚那些基础模型认为很可能但策略已将其推向零概率的 token。这条推文对实际应用中的SFT论文表示怀疑,但赞赏这一尝试。
本文介绍了使用 Fireworks Agent 自动化微调一个小型开放权重模型,以生成维基百科风格的摘要,从而形成一个自我改进的智能体循环,使得模型训练成为一个可调用的步骤。
Anyscale 推出了一款新的 LLM 后训练 Agent Skill,可自动选择最优的微调方法(SFT、DPO、GRPO 等)并生成可随时启动的配置,帮助避免 GPU 运行浪费。
作者用相同的SFT方法训练了1B、2B和3B模型,观察到1B和2B模型的指令遵循能力(IFEval)退步了,而3B模型却提升了,这可能与学习率或模型容量不同有关。
Percy Liang宣布,对于下一个Marin模型,他们正在编译新的数据混合,并请求高质量的token数据用于预训练、中期训练和SFT。
TRL v1.4 发布,该版本为 SFT 引入分块 NLL 损失以降低显存占用,并实现与 OpenReward 的一级集成以支持 GRPO。
本文研究了语言模型后训练期间输出多样性崩溃的位置和原因,分析了三个 OLMo 3 训练线(Think、Instruct、RL-Zero)在多个任务和指标上的表现。研究发现多样性崩溃主要由训练数据组成决定,并在训练期间嵌入到模型权重中,仅通过推理时调整无法解决。