tv-loss

#tv-loss

突破熵界：通过带拒绝采样的多 token 预测加速 RL 训练

Hugging Face Daily Papers ↗ · 6天前缓存

Bebop 提出了熵感知的多 token 预测，结合拒绝采样和一种新的 TV 损失，以加速 LLM 的 RL 训练，实现最高 1.8 倍的加速。该方法通过优化训练目标，解决了 RL 训练中接受率下降的问题。

0 人收藏 0 人点赞