@maximelabonne: 这真是太棒了!动态微调(DFT)根据模型自身的 token 概率重新加权 SFT 损失,这产生了一个……

X AI KOLs Following 论文

摘要

动态微调(DFT)被介绍为一种方法,它利用模型自身的 token 概率重新加权 SFT 损失,形成一个反馈循环,并添加前向KL散度来惩罚那些基础模型认为很可能但策略已将其推向零概率的 token。这条推文对实际应用中的SFT论文表示怀疑,但赞赏这一尝试。

这真是太棒了! 动态微调(DFT)根据模型自身的 token 概率重新加权 SFT 损失,从而形成一个反馈循环。 因此,他们添加了前向KL散度,用于惩罚那些基础模型认为很可能、但策略已将其推向零概率的 token。 DFT 和前向KL散度具有相反的失败模式,因此它们可以在理论上相互纠正。 SFT 论文在实践中从未奏效,但我喜欢这次尝试!
查看原文
查看缓存全文

缓存时间: 2026/05/21 19:37

这太巧妙了!

动态微调(DFT)根据模型自身的token概率重新加权SFT损失,从而形成反馈循环。

因此他们添加了正向KL散度,用于惩罚基础模型认为可能但策略已推向零概率的任何token。

DFT和正向KL散度具有相反的失败模式,因此它们(理论上)可以互相修复。

SFT论文在实践中从未成功过,但我喜欢这种尝试!

相似文章

GFT:基于无偏群组优势与动态系数修正,从模仿迈向奖励微调

Hugging Face Daily Papers

# 论文页面 - GFT:基于无偏群组优势与动态系数修正,从模仿迈向奖励微调 来源:[https://huggingface.co/papers/2604.14258](https://huggingface.co/papers/2604.14258) ## 摘要 Group Fine-Tuning 通过利用多样化的回复群组和自适应权重边界来解决监督微调的局限性,从而提升训练稳定性与效率。大语言模型通常在后训练中使用[监督微调](https://hug

自蒸馏实现持续学习 [pdf]

Hacker News Top

介绍了自蒸馏微调(SDFT),一种通过示范实现同策略学习的方法,能够在不发生灾难性遗忘的情况下实现持续学习,性能优于监督微调。