@maximelabonne: 这真是太棒了！动态微调（DFT）根据模型自身的 token 概率重新加权 SFT 损失，这产生了一个……

X AI KOLs Following 2026/05/20 22:31 论文

fine-tuning dynamic-fine-tuning sft kl-divergence deep-learning nlp training-method

摘要

动态微调（DFT）被介绍为一种方法，它利用模型自身的 token 概率重新加权 SFT 损失，形成一个反馈循环，并添加前向KL散度来惩罚那些基础模型认为很可能但策略已将其推向零概率的 token。这条推文对实际应用中的SFT论文表示怀疑，但赞赏这一尝试。

这真是太棒了！动态微调（DFT）根据模型自身的 token 概率重新加权 SFT 损失，从而形成一个反馈循环。因此，他们添加了前向KL散度，用于惩罚那些基础模型认为很可能、但策略已将其推向零概率的 token。 DFT 和前向KL散度具有相反的失败模式，因此它们可以在理论上相互纠正。 SFT 论文在实践中从未奏效，但我喜欢这次尝试！

查看原文

查看缓存全文

缓存时间: 2026/05/21 19:37

这太巧妙了！

动态微调（DFT）根据模型自身的token概率重新加权SFT损失，从而形成反馈循环。

因此他们添加了正向KL散度，用于惩罚基础模型认为可能但策略已推向零概率的任何token。

DFT和正向KL散度具有相反的失败模式，因此它们（理论上）可以互相修复。

SFT论文在实践中从未成功过，但我喜欢这种尝试！

@maximelabonne: 这真是太棒了！动态微调（DFT）根据模型自身的 token 概率重新加权 SFT 损失，这产生了一个……

相似文章

GFT：基于无偏群组优势与动态系数修正，从模仿迈向奖励微调

基于熵-KL散度的令牌掩码：一种用于大型语言模型选择性微调的新方法

当RL在SFT后失效：恢复模型可塑性以实现稳健的SFT到RL交接

@daniel_mac8: 宝贝，醒醒。最新的持续学习突破出现了。fast-slow training (FST) 将模型参数视为“慢权重”…

@ben_burtenshaw: https://x.com/ben_burtenshaw/status/2067615361428545566

提交意见反馈