@maximelabonne: 这真是太棒了!动态微调(DFT)根据模型自身的 token 概率重新加权 SFT 损失,这产生了一个……
摘要
动态微调(DFT)被介绍为一种方法,它利用模型自身的 token 概率重新加权 SFT 损失,形成一个反馈循环,并添加前向KL散度来惩罚那些基础模型认为很可能但策略已将其推向零概率的 token。这条推文对实际应用中的SFT论文表示怀疑,但赞赏这一尝试。
查看缓存全文
缓存时间: 2026/05/21 19:37
这太巧妙了!
动态微调(DFT)根据模型自身的token概率重新加权SFT损失,从而形成反馈循环。
因此他们添加了正向KL散度,用于惩罚基础模型认为可能但策略已推向零概率的任何token。
DFT和正向KL散度具有相反的失败模式,因此它们(理论上)可以互相修复。
SFT论文在实践中从未成功过,但我喜欢这种尝试!
相似文章
GFT:基于无偏群组优势与动态系数修正,从模仿迈向奖励微调
# 论文页面 - GFT:基于无偏群组优势与动态系数修正,从模仿迈向奖励微调 来源:[https://huggingface.co/papers/2604.14258](https://huggingface.co/papers/2604.14258) ## 摘要 Group Fine-Tuning 通过利用多样化的回复群组和自适应权重边界来解决监督微调的局限性,从而提升训练稳定性与效率。大语言模型通常在后训练中使用[监督微调](https://hug
基于熵-KL散度的令牌掩码:一种用于大型语言模型选择性微调的新方法
提出了 EKSFT,一种面向大型语言模型的选择性微调方法,该方法掩码具有高熵或与参考模型高KL散度的令牌,在注入任务知识的同时保留预训练分布。在数学推理基准上的实验表明,它优于标准SFT,并改进了后续的RL微调。
@daniel_mac8: 宝贝,醒醒。最新的持续学习突破出现了。fast-slow training (FST) 将模型参数视为“慢权重”…
这条推文介绍了Fast-Slow Training (FST),一种新的持续学习方法,将模型参数视为慢权重,优化上下文视为快权重,据称在数学、代码和通用推理基准测试上全面优于仅权重训练。
自蒸馏实现持续学习 [pdf]
介绍了自蒸馏微调(SDFT),一种通过示范实现同策略学习的方法,能够在不发生灾难性遗忘的情况下实现持续学习,性能优于监督微调。
分布视角下的 SFT、RL 与 On-Policy Distillation(19 分钟阅读)
本文从分布视角分析语言模型的后训练方法,对比 SFT、RL 和 On-Policy Distillation 如何重塑模型分布,及其对灾难性遗忘等现象的影响。