突破熵界:通过带拒绝采样的多 token 预测加速 RL 训练

Hugging Face Daily Papers 论文

摘要

Bebop 提出了熵感知的多 token 预测,结合拒绝采样和一种新的 TV 损失,以加速 LLM 的 RL 训练,实现最高 1.8 倍的加速。该方法通过优化训练目标,解决了 RL 训练中接受率下降的问题。

强化学习(RL)已成为现代大语言模型的关键组成部分,但 rollout 阶段仍是 RL 训练流程中的主要瓶颈。尽管多 token 预测(MTP)通过推测解码为加速 rollout 提供了自然解决方案,但许多研究观察到,MTP 接受率在 RL 训练期间显著下降,导致加速性能有限。为了解决这一瓶颈,我们提出了 Bebop,这是对 LLM 后训练中 MTP 的系统性研究,并提供了将 MTP 集成到大规模 RL 流程中的实用方法。首先,我们揭示了 MTP 接受率本质上受模型熵波动的限制,且与 RL 阶段熵的上升呈现明显的负线性关系。其次,我们表明与贪婪草稿采样相比,概率拒绝采样在很大程度上缓解了 RL 中熵引入的干扰。我们进一步发现,传统 MTP 训练目标(交叉熵或 KL)在此类设置中并非最优,因此我们提出了一种新的端到端 TV 损失,直接优化多步拒绝采样接受率,带来约 10% 的接受率提升,在数学推理、代码生成和智能体任务中实现了高达 95% 的接受率和高达 25% 的额外推理吞吐量提升。第三,我们在 RL 期间测试了多种在线 MTP 训练策略,并表明使用端到端 TV 损失和拒绝采样的预 RL MTP 训练在整个 RL 过程中实现了稳定的接受率和加速,无需昂贵的在线 MTP 更新。我们提供了大量的实验和分析来验证我们的发现。实验结果表明,我们的方法在 Qwen3.5、Qwen3.6 和 Qwen3.7 模型的异步 RL 训练中实现了高达 1.8 倍的端到端加速。
查看原文
查看缓存全文

缓存时间: 2026/06/11 13:41

论文页面 - 打破熵界:基于 MTP 和拒绝采样加速强化学习训练

来源:https://huggingface.co/papers/2606.12370
作者: , , , , , , , , , , , , , ,

摘要

Bebop 通过熵感知采样和新型训练目标,优化多令牌预测技术,提高接受率和推理吞吐量,解决了大型语言模型强化学习训练中的效率瓶颈问题。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) (RL) 已成为现代大型语言模型的关键组成部分,然而 rollout 阶段仍然是 RL 训练流水线中的主要瓶颈。虽然多令牌预测 (https://huggingface.co/papers?q=Multi-Token%20Prediction) (MTP) 通过投机解码 (https://huggingface.co/papers?q=speculative%20decoding) 为加速 rollout 提供了自然解决方案,但许多研究观察到 MTP 接受率在 RL 训练期间显著下降,导致加速效果有限。为解决这一瓶颈,我们提出 Bebop,对 LLM 后训练中的 MTP 进行系统研究,并提供将 MTP 集成到大规模 RL 流水线中的实用方案。首先,我们发现 MTP 接受率本质上受制于模型熵 (https://huggingface.co/papers?q=model%20entropy) 的波动,该波动与 RL 阶段熵的上升呈明显的负线性关系。其次,我们证明相比于贪婪草稿采样 (https://huggingface.co/papers?q=greedy%20draft%20sampling),概率性拒绝采样 (https://huggingface.co/papers?q=probabilistic%20rejection%20sampling) 能大幅减轻 RL 中熵引入的干扰。我们进一步发现传统 MTP 训练目标(交叉熵 (https://huggingface.co/papers?q=cross-entropy) 或 KL)在此类设置中并非最优,因此我们提出一种新型端到端 TV 损失 (https://huggingface.co/papers?q=TV%20loss),直接优化多步拒绝采样的接受率,带来约 10% 的接受率提升,在数学推理、代码生成和智能体任务上实现高达 95% 的接受率以及高达 25% 的额外推理吞吐量增益。第三,我们测试了 RL 期间的各种在线 MTP 训练策略,并表明使用 e2e TV 损失 (https://huggingface.co/papers?q=TV%20loss) 和拒绝采样进行 RL 前 MTP 训练,在整个 RL 过程中能保持一致的接受率和加速比,从而消除了昂贵的在线 MTP 更新需求。我们提供了大量实验和分析来验证我们的发现。实验结果表明,在 Qwen3.5、Qwen3.6 和 Qwen3.7 模型的异步 RL 训练 (https://huggingface.co/papers?q=async%20RL%20training) 中,我们的方法实现了高达 1.8 倍的端到端加速。

查看 arXiv 页面 (https://arxiv.org/abs/2606.12370)
查看 PDF (https://arxiv.org/pdf/2606.12370)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.12370)

在你的 agent 中获取这篇论文:

hf papers read 2606.12370

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型(0)

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2606.12370 即可从此页面链接。

引用该论文的数据集(0)

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.12370 即可从此页面链接。

引用该论文的 Space(0)

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2606.12370 即可从此页面链接。

包含该论文的收藏(1)

相似文章

最大熵如何使强化学习更加稳健

ML at Berkeley

本文解释了将香农熵纳入强化学习目标函数,如何创造出更稳健的智能体,使其能够应对奖励和动态环境中出现的意外甚至对抗性变化。

AEM:用于多轮智能体强化学习的自适应熵调制

Hugging Face Daily Papers

本文介绍了AEM,这是一种用于智能体强化学习的无监督方法,通过在响应级别自适应调整熵动态来改善探索与利用之间的平衡。通过在ALFWorld和SWE-bench等基准测试上展示性能提升,该方法将不确定性估计与动作粒度对齐。