sft

#sft

@QGallouedec：TRL v1.4 发布！令我兴奋的两点：→ SFT 的分块 NLL 损失。显存占用大幅降低，损失值相同，通常速度更快。Qwen…

X AI KOLs Following ↗ · 2天前缓存

TRL v1.4 发布，该版本为 SFT 引入分块 NLL 损失以降低显存占用，并实现与 OpenReward 的一级集成以支持 GRPO。

0 人收藏 0 人点赞

#sft

arXiv cs.CL ↗ · 2026-04-20 缓存

本文研究了语言模型后训练期间输出多样性崩溃的位置和原因，分析了三个 OLMo 3 训练线（Think、Instruct、RL-Zero）在多个任务和指标上的表现。研究发现多样性崩溃主要由训练数据组成决定，并在训练期间嵌入到模型权重中，仅通过推理时调整无法解决。

0 人收藏 0 人点赞