突破熵界:通过带拒绝采样的多 token 预测加速 RL 训练
摘要
Bebop 提出了熵感知的多 token 预测,结合拒绝采样和一种新的 TV 损失,以加速 LLM 的 RL 训练,实现最高 1.8 倍的加速。该方法通过优化训练目标,解决了 RL 训练中接受率下降的问题。
查看缓存全文
缓存时间: 2026/06/11 13:41
论文页面 - 打破熵界:基于 MTP 和拒绝采样加速强化学习训练
来源:https://huggingface.co/papers/2606.12370
作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
Bebop 通过熵感知采样和新型训练目标,优化多令牌预测技术,提高接受率和推理吞吐量,解决了大型语言模型强化学习训练中的效率瓶颈问题。
强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) (RL) 已成为现代大型语言模型的关键组成部分,然而 rollout 阶段仍然是 RL 训练流水线中的主要瓶颈。虽然多令牌预测 (https://huggingface.co/papers?q=Multi-Token%20Prediction) (MTP) 通过投机解码 (https://huggingface.co/papers?q=speculative%20decoding) 为加速 rollout 提供了自然解决方案,但许多研究观察到 MTP 接受率在 RL 训练期间显著下降,导致加速效果有限。为解决这一瓶颈,我们提出 Bebop,对 LLM 后训练中的 MTP 进行系统研究,并提供将 MTP 集成到大规模 RL 流水线中的实用方案。首先,我们发现 MTP 接受率本质上受制于模型熵 (https://huggingface.co/papers?q=model%20entropy) 的波动,该波动与 RL 阶段熵的上升呈明显的负线性关系。其次,我们证明相比于贪婪草稿采样 (https://huggingface.co/papers?q=greedy%20draft%20sampling),概率性拒绝采样 (https://huggingface.co/papers?q=probabilistic%20rejection%20sampling) 能大幅减轻 RL 中熵引入的干扰。我们进一步发现传统 MTP 训练目标(交叉熵 (https://huggingface.co/papers?q=cross-entropy) 或 KL)在此类设置中并非最优,因此我们提出一种新型端到端 TV 损失 (https://huggingface.co/papers?q=TV%20loss),直接优化多步拒绝采样的接受率,带来约 10% 的接受率提升,在数学推理、代码生成和智能体任务上实现高达 95% 的接受率以及高达 25% 的额外推理吞吐量增益。第三,我们测试了 RL 期间的各种在线 MTP 训练策略,并表明使用 e2e TV 损失 (https://huggingface.co/papers?q=TV%20loss) 和拒绝采样进行 RL 前 MTP 训练,在整个 RL 过程中能保持一致的接受率和加速比,从而消除了昂贵的在线 MTP 更新需求。我们提供了大量实验和分析来验证我们的发现。实验结果表明,在 Qwen3.5、Qwen3.6 和 Qwen3.7 模型的异步 RL 训练 (https://huggingface.co/papers?q=async%20RL%20training) 中,我们的方法实现了高达 1.8 倍的端到端加速。
查看 arXiv 页面 (https://arxiv.org/abs/2606.12370)
查看 PDF (https://arxiv.org/pdf/2606.12370)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12370)
在你的 agent 中获取这篇论文:
hf papers read 2606.12370
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型(0)
没有模型链接此论文
在模型 README.md 中引用 arxiv.org/abs/2606.12370 即可从此页面链接。
引用该论文的数据集(0)
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.12370 即可从此页面链接。
引用该论文的 Space(0)
没有 Space 链接此论文
在 Space README.md 中引用 arxiv.org/abs/2606.12370 即可从此页面链接。
包含该论文的收藏(1)
相似文章
通过精确的熵曲线控制解决大语言模型强化学习的性能饱和问题
本文介绍了 Entrocraft,这是一种用于强化学习的拒绝采样方法,通过控制熵调度来防止大语言模型的性能饱和。该方法展示了更强的泛化能力和更长的训练寿命,使较小规模的模型能够超越较大的基线模型。
选择性优势熵自适应范围GRPO:用于语言模型高效强化学习的非对称令牌级折扣
本文介绍了GRPO的自适应范围和选择性优势变体,这些变体使用基于熵的令牌级折扣来稳定训练并提高数学推理任务的性能,以更低的方差实现了更强的结果。
重新审视熵正则化:自适应系数释放其在LLM强化学习中的潜力
本文提出自适应熵正则化(AER)框架,通过难度感知的系数分配和初始锚定目标熵来动态平衡LLM强化学习中的探索与利用,解决策略熵坍缩问题。在数学推理基准上的实验验证了该方法在准确性和探索能力上的一致性改进。
最大熵如何使强化学习更加稳健
本文解释了将香农熵纳入强化学习目标函数,如何创造出更稳健的智能体,使其能够应对奖励和动态环境中出现的意外甚至对抗性变化。
AEM:用于多轮智能体强化学习的自适应熵调制
本文介绍了AEM,这是一种用于智能体强化学习的无监督方法,通过在响应级别自适应调整熵动态来改善探索与利用之间的平衡。通过在ALFWorld和SWE-bench等基准测试上展示性能提升,该方法将不确定性估计与动作粒度对齐。