sft

标签

Cards List
#sft

@QGallouedec:TRL v1.4 发布!令我兴奋的两点:→ SFT 的分块 NLL 损失。显存占用大幅降低,损失值相同,通常速度更快。Qwen…

X AI KOLs Following · 2天前 缓存

TRL v1.4 发布,该版本为 SFT 引入分块 NLL 损失以降低显存占用,并实现与 OpenReward 的一级集成以支持 GRPO。

0 人收藏 0 人点赞
#sft

输出多样性在后训练中的崩溃发生在哪里?

arXiv cs.CL · 2026-04-20 缓存

本文研究了语言模型后训练期间输出多样性崩溃的位置和原因,分析了三个 OLMo 3 训练线(Think、Instruct、RL-Zero)在多个任务和指标上的表现。研究发现多样性崩溃主要由训练数据组成决定,并在训练期间嵌入到模型权重中,仅通过推理时调整无法解决。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈