标签
Bebop 提出了熵感知的多 token 预测,结合拒绝采样和一种新的 TV 损失,以加速 LLM 的 RL 训练,实现最高 1.8 倍的加速。该方法通过优化训练目标,解决了 RL 训练中接受率下降的问题。