EfficientRollout:用于RL推演的系统感知自推测解码
摘要
EfficientRollout是一个系统感知的自推测解码框架,通过使草稿模型适应不断变化的策略并优化推测解码机制,加速LLM的强化学习推演,将延迟降低高达19.6%。
查看缓存全文
缓存时间: 2026/06/18 11:57
论文页面 - EfficientRollout:面向强化学习推出的系统感知自推测解码框架
来源:https://huggingface.co/papers/2606.18967
摘要
EfficientRollout 是一个系统感知的自推测解码框架,通过使草稿模型适应不断演化的策略并优化推测解码机制,来加速强化学习中的 rollout 生成。
强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) (RL) 已成为 LLM 的一种代表性的后训练范式,能够带来强大的推理和智能体能力。然而,rollout 生成 (https://huggingface.co/papers?q=rollout%20generation) 仍然是主要的延迟瓶颈,因为自回归采样 (https://huggingface.co/papers?q=autoregressive%20sampling) 会顺序解码响应,而少数长尾生成往往决定完成时间。推测解码 (https://huggingface.co/papers?q=Speculative%20decoding) (SD) 为解决这一瓶颈提供了自然途径:它是一种成熟的用于服务固定 LLM 的技术,通过快速生成草稿 token 并在并行验证中接受它们来减少延迟,同时保持目标模型分布。然而,其实际加速效果并不能直接应用于 RL rollout:(i) 不断变化的目标策略使得任何固定草稿模型与策略输出分布之间的匹配度越来越低;(ii) 活跃批次大小在 rollout 解码过程中不断缩小,使解码从计算受限状态转变为内存受限状态 (https://huggingface.co/papers?q=memory-bound%20regimes),此时并行验证可以利用未被充分利用的计算资源。因此,加速 RL rollout 既需要一个在从演化策略进行长序列、高温度生成时仍保持有效的草稿模型,也需要系统感知地使用 SD 以避免计算受限状态 (https://huggingface.co/papers?q=compute-bound%20regimes)。我们提出了 EfficientRollout,一个旨在填补这一空白的系统感知自 SD 框架,专门用于 RL rollout。EfficientRollout 从目标模型中诱导出一个量化草稿模型(即自推测解码 (https://huggingface.co/papers?q=self-speculative%20decoding)),使其与演化策略保持耦合,无需单独的草稿模型预训练或在线适应。它还进一步协调了一个系统感知的 SD 开关策略与接受率感知的草稿长度自适应 (https://huggingface.co/papers?q=acceptance-aware%20draft-length%20adaptation),仅在有利的机制下启用推测,同时使草稿预算与变化的草稿质量相匹配。与加速的 AR rollout 基线相比,EfficientRollout 可将 rollout 延迟和端到端延迟分别降低最多 19.6% 和 12.7%,同时保持最终模型质量。
查看 arXiv 页面 (https://arxiv.org/abs/2606.18967)查看 PDF (https://arxiv.org/pdf/2606.18967)GitHub1 (https://github.com/furiosa-ai/EfficientRollout)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18967)
在你的 agent 中获取这篇论文:
hf papers read 2606\.18967
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接此论文
请在模型 README.md 中引用 arxiv.org/abs/2606.18967 以从此页面链接。
引用此论文的数据集0
没有数据集链接此论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.18967 以从此页面链接。
引用此论文的 Spaces0
没有 Space 链接此论文
请在 Space README.md 中引用 arxiv.org/abs/2606.18967 以从此页面链接。
包含此论文的收藏0
没有包含此论文的收藏
请将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中以从此页面链接。
相似文章
基于强化学习的经验驱动式LLM动态退出策略
介绍了LEDE,一个利用离线强化学习动态选择退出层和推测长度的框架,用于LLM的自推测解码,相较于自回归解码实现了高达2.7倍的加速。
PSD: 通过并行推测解码推动扩散大语言模型的帕累托前沿
本文介绍了一种无需训练的框架——并行推测解码(PSD),它通过同时提升空间和时间效率来加速扩散大语言模型的推理,每次前向传递最多可处理5.5×的token数,且质量与贪婪解码相当。
面向强化学习后训练的跨轮次自适应展开优化
本文提出了CERO,一种用于LLM强化学习后训练的跨轮次自适应展开优化方法。该方法利用贝叶斯后验方差,在提示和轮次之间分配固定的展开预算,以最大化样本效率,实现了理论遗憾界,并在数学推理任务上优于GRPO。
@SOURADIPCHAKR18:典型的RL算法和同策略蒸馏方法是盲目采样器:它们使用特权信息来评分rollouts……
这项工作提出使用特权信息来主动采样强化学习中的rollouts,改进了典型的盲目采样方法。
Draft-OPD:面向推测式草稿模型的在线策略蒸馏
Draft-OPD 引入在线策略蒸馏,结合目标辅助展开和错误重放,克服了训练用于推测解码的草稿模型时存在的离线到推理不匹配问题,实现了超过5倍的无损加速,相较于EAGLE-3和DFlash分别提升了23%和13%。