@oneill_c: 1/ 我们微调了很多客户模型,因此我们决定系统地尝试找出一些微调的最佳实践…
摘要
该帖子分享了关于微调最佳实践的系统性实验结果,一次改变一个SFT变量,涵盖密集模型和MoE模型(参数规模达235B),在四个真实客户数据集上使用自定义评估来消除混淆因素。
查看缓存全文
缓存时间: 2026/06/22 13:36
1/ 我们微调了大量客户模型,因此决定系统性地尝试并总结出一些微调的最佳实践。SFT虽然不性感,但依然重要。我们每次只改变一个SFT参数,在两个模型家族(稠密模型和MoE模型,参数量达235B)上,基于四个真实客户数据集进行实验。
这项实验的干净之处在于:每个数据集都配有一个与客户耗时数周构建的评估标准,而训练输出正是为了通过该评估而生成的。因此,监督目标与我们最终衡量的指标是完全一致的准则,这排除了常见的干扰因素。
2/ 最大的意外发现是:最佳LoRA学习率并不随模型规模变化,从0.6B到32B模型几乎恒定。此前我们听说最佳学习率大致应与模型宽度的倒数成比例。但对于LoRA,无论是Qwen还是Llama家族,该指数在统计上与零无显著差异。
选择一个学习率后无需再反复调参,因为由此带来的损失差异小于0.01 nats。
3/ 全微调的最佳学习率约低10-33倍(≈3e-5),且该比例在不同模型家族间保持稳定。我们提出的选择规则具有迁移性——用Qwen拟合出的规则可以预测Llama的结果,误差在0.004 nats以内。
4/ 在全部72组损失对比中,全微调均优于LoRA,但优势微乎其微。LoRA以3-13%的参数数量恢复了98%的改进增益,更重要的是,随着模型变大,两者的差距逐渐缩小。
5/ 对最终损失(损失改进量)影响最大的因素并非学习率或批量大小,而是数据。具体来说,Token组成解释了56-88%的方差,而学习率和批量大小合计仅解释了≤0.07。
6/ 验证损失能否预测下游质量?在固定的(模型、数据集、方法)实验组合内,答案是肯定的(斯皮尔曼相关系数-0.38至-0.88)。因此可以在同一方法内基于损失进行选择。但该规律无法跨模型家族迁移——即负对数似然更低的模型在评判中可能得分更差。
7/ 此外,MoE模型的规模大致相当于其有效参数量和总参数量的几何平均值(的稠密等效模型)。
8/ 当前正有一场关于“Muon是否就是Shampoo”的活跃讨论。我们的SFT数据表明:Muon在预训练中的优势在少量更新的SFT中大多未能保持(损失略高)。然而,它确实保留了更强的通用指令跟随能力,这是一个非常有趣的现象,我们想要深入挖掘。这可能与Muon所进入区域的平坦性有关(我们进行了一些Hessian迹的分析,详见报告)。
9/ LoRA的秩到~64时帮助最大,之后趋于平稳。r=32以一半参数量达到约0.001-0.003 nats以内的效果;r=128则无额外收益。所有实验中α=32效果最佳。推荐默认设置r=64/α=32。
10/ 关于训练轮数,超过大约2轮后,损失开始过拟合,评判质量不再提升,指令跟随能力反而下降。因此如果数据更多,应使用新样本而非重复旧数据。显然,在所有对比中,新鲜1万条样本的效果都优于重复5千条。
11/ 我们希望将后训练从默认继承转变为可量化的科学,我们正在做更多相关研究。当然更令人感兴趣的是SFT、RL和OPD/OPSD之间的比较问题,我们将很快发布更多相关内容。如果您想参与这项工作,请私信我!
完整报告:https://datocms-assets.com/104802/1781805778-baseten-research-sft.pdf…
谢谢Elie!
这个和我的高尔夫差点一起
希望对你有用!
别客气,希望有用!
相似文章
@no_stp_on_snek:微调小型开放模型时真正让我惊讶的事情。注意,我在这方面还算新手,所以有些内容可能看起来很显而易见……
一位开发者分享了微调小型开放模型时令人惊讶的经验教训,包括基础模型往往已经在预期改进点上达到极限,真正的弱点在于行为(屈服),而微调需要仔细的衡量和平衡。
@LangChain: 微调开源模型可以超越或匹配前沿模型。基础 @Alibaba_Qwen 开箱即有良好的提示能力:强…
使用LoRA微调像阿里巴巴Qwen这样的开源模型,可以在错误分类任务上匹配或超越前沿模型性能。
微调陷阱:评估负迁移与PEFT在Sub-1B数学推理中的作用
本文对Sub-1B模型在数学推理任务上进行了基准测试,揭示全量微调会主动损害300M参数以下模型的性能,而LoRA和DoRA等参数高效微调(PEFT)则提供了稳定性。作者建议对所有对齐的Sub-1B模型默认使用PEFT,并警告不要对小于500M参数的架构使用全量微调,以防止灾难性遗忘。
面向基础模型综合评估的细粒度基准生成
一种新的自动化基准生成框架能够实现基础模型的细粒度、全面评估,具有更低的错误率和更丰富的元数据,在机器学习、公司金融和个人金融基准上得到了验证。
FocuSFT:面向稀释感知长上下文微调的双层优化
本文介绍了 FocuSFT,这是一种双层优化框架,它通过参数化记忆机制解决注意力稀释问题,从而提升长上下文语言模型的性能。在 BABILong 和 RULER 等基准测试中,该框架在准确性和上下文参与度方面均展现出显著提升。