tv-loss

标签

Cards List
#tv-loss

突破熵界:通过带拒绝采样的多 token 预测加速 RL 训练

Hugging Face Daily Papers · 6天前 缓存

Bebop 提出了熵感知的多 token 预测,结合拒绝采样和一种新的 TV 损失,以加速 LLM 的 RL 训练,实现最高 1.8 倍的加速。该方法通过优化训练目标,解决了 RL 训练中接受率下降的问题。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈