@oneill_c: 1/ 我们微调了很多客户模型，因此我们决定系统地尝试找出一些微调的最佳实践…

X AI KOLs Following 2026/06/18 18:17 论文

fine-tuning sft best-practices customer-models dense-moe evaluation

摘要

该帖子分享了关于微调最佳实践的系统性实验结果，一次改变一个SFT变量，涵盖密集模型和MoE模型（参数规模达235B），在四个真实客户数据集上使用自定义评估来消除混淆因素。

1/ 我们微调了很多客户模型，因此我们决定系统地尝试找出一些微调的最佳实践。SFT并不性感，但依然重要。我们一次改变一个SFT变量，跨越两个模型家族：密集模型和MoE模型（参数规模达235B），在四个真实客户数据集上进行实验。这种做法之所以干净，是因为每个数据集都配有一个与客户一起花费数周构建的评估，并且训练输出是为了通过该评估而生成的。因此，监督目标和下游衡量标准是相同的准则，从而消除了常见的混淆因素。

查看原文

查看缓存全文

缓存时间: 2026/06/22 13:36

1/ 我们微调了大量客户模型，因此决定系统性地尝试并总结出一些微调的最佳实践。SFT虽然不性感，但依然重要。我们每次只改变一个SFT参数，在两个模型家族（稠密模型和MoE模型，参数量达235B）上，基于四个真实客户数据集进行实验。

这项实验的干净之处在于：每个数据集都配有一个与客户耗时数周构建的评估标准，而训练输出正是为了通过该评估而生成的。因此，监督目标与我们最终衡量的指标是完全一致的准则，这排除了常见的干扰因素。

2/ 最大的意外发现是：最佳LoRA学习率并不随模型规模变化，从0.6B到32B模型几乎恒定。此前我们听说最佳学习率大致应与模型宽度的倒数成比例。但对于LoRA，无论是Qwen还是Llama家族，该指数在统计上与零无显著差异。

选择一个学习率后无需再反复调参，因为由此带来的损失差异小于0.01 nats。

3/ 全微调的最佳学习率约低10-33倍（≈3e-5），且该比例在不同模型家族间保持稳定。我们提出的选择规则具有迁移性——用Qwen拟合出的规则可以预测Llama的结果，误差在0.004 nats以内。

4/ 在全部72组损失对比中，全微调均优于LoRA，但优势微乎其微。LoRA以3-13%的参数数量恢复了98%的改进增益，更重要的是，随着模型变大，两者的差距逐渐缩小。

5/ 对最终损失（损失改进量）影响最大的因素并非学习率或批量大小，而是数据。具体来说，Token组成解释了56-88%的方差，而学习率和批量大小合计仅解释了≤0.07。

6/ 验证损失能否预测下游质量？在固定的（模型、数据集、方法）实验组合内，答案是肯定的（斯皮尔曼相关系数-0.38至-0.88）。因此可以在同一方法内基于损失进行选择。但该规律无法跨模型家族迁移——即负对数似然更低的模型在评判中可能得分更差。

7/ 此外，MoE模型的规模大致相当于其有效参数量和总参数量的几何平均值（的稠密等效模型）。

8/ 当前正有一场关于“Muon是否就是Shampoo”的活跃讨论。我们的SFT数据表明：Muon在预训练中的优势在少量更新的SFT中大多未能保持（损失略高）。然而，它确实保留了更强的通用指令跟随能力，这是一个非常有趣的现象，我们想要深入挖掘。这可能与Muon所进入区域的平坦性有关（我们进行了一些Hessian迹的分析，详见报告）。

9/ LoRA的秩到~64时帮助最大，之后趋于平稳。r=32以一半参数量达到约0.001-0.003 nats以内的效果；r=128则无额外收益。所有实验中α=32效果最佳。推荐默认设置r=64/α=32。

10/ 关于训练轮数，超过大约2轮后，损失开始过拟合，评判质量不再提升，指令跟随能力反而下降。因此如果数据更多，应使用新样本而非重复旧数据。显然，在所有对比中，新鲜1万条样本的效果都优于重复5千条。

11/ 我们希望将后训练从默认继承转变为可量化的科学，我们正在做更多相关研究。当然更令人感兴趣的是SFT、RL和OPD/OPSD之间的比较问题，我们将很快发布更多相关内容。如果您想参与这项工作，请私信我！

完整报告：https://datocms-assets.com/104802/1781805778-baseten-research-sft.pdf…

谢谢Elie！

这个和我的高尔夫差点一起

希望对你有用！

别客气，希望有用！

@oneill_c: 1/ 我们微调了很多客户模型，因此我们决定系统地尝试找出一些微调的最佳实践…

相似文章

@no_stp_on_snek：微调小型开放模型时真正让我惊讶的事情。注意，我在这方面还算新手，所以有些内容可能看起来很显而易见……

@LangChain: 微调开源模型可以超越或匹配前沿模型。基础 @Alibaba_Qwen 开箱即有良好的提示能力：强…

微调陷阱：评估负迁移与PEFT在Sub-1B数学推理中的作用

面向基础模型综合评估的细粒度基准生成

FocuSFT：面向稀释感知长上下文微调的双层优化

提交意见反馈