training-method

标签

Cards List
#training-method

GDSD:强化学习作为扩散语言模型的引导式降噪器自蒸馏

Hugging Face Daily Papers · 2026-05-28 缓存

GDSD提出了一种强化学习方法,直接从优势引导的自教师中蒸馏扩散语言模型的降噪器,避免了基于ELBO的似然代理带来的偏差。在规划、数学和编码基准上,比先前最先进的方法准确率提升高达+19.6%。

0 人收藏 0 人点赞
#training-method

@maximelabonne: 这真是太棒了!动态微调(DFT)根据模型自身的 token 概率重新加权 SFT 损失,这产生了一个……

X AI KOLs Following · 2026-05-20 缓存

动态微调(DFT)被介绍为一种方法,它利用模型自身的 token 概率重新加权 SFT 损失,形成一个反馈循环,并添加前向KL散度来惩罚那些基础模型认为很可能但策略已将其推向零概率的 token。这条推文对实际应用中的SFT论文表示怀疑,但赞赏这一尝试。

0 人收藏 0 人点赞
#training-method

@daniel_mac8: 宝贝,醒醒。最新的持续学习突破出现了。fast-slow training (FST) 将模型参数视为“慢权重”…

X AI KOLs Timeline · 2026-05-17 缓存

这条推文介绍了Fast-Slow Training (FST),一种新的持续学习方法,将模型参数视为慢权重,优化上下文视为快权重,据称在数学、代码和通用推理基准测试上全面优于仅权重训练。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈