EfficientRollout:用于RL推演的系统感知自推测解码

Hugging Face Daily Papers 论文

摘要

EfficientRollout是一个系统感知的自推测解码框架,通过使草稿模型适应不断变化的策略并优化推测解码机制,加速LLM的强化学习推演,将延迟降低高达19.6%。

强化学习(RL)已成为LLM的代表性后训练范式,赋予了其强大的推理和智能体能力。然而,推演生成仍然是一个主要的延迟瓶颈,因为自回归采样顺序解码响应,且少量长尾生成通常决定了完成时间。推测解码(SD)为解决这一瓶颈提供了自然途径,它是一种服务固定LLM的成熟技术,通过快速生成令牌草稿并利用并行验证接受它们,同时保留目标模型分布,从而减少延迟。然而,其实际加速效果并不能直接迁移到RL推演中:(i)不断变化的目标策略使得任何固定草稿模型与该策略的输出分布日益不匹配;(ii)在推演解码过程中活跃批次大小逐渐缩小,使解码从计算密集型转向内存密集型,而并行验证可以利用未充分利用的计算资源。因此,加速RL推演需要一个在长序列、高温度生成场景下对不断变化的策略保持有效的草稿模型,以及避免计算密集型机制的系统感知SD使用方式。我们提出了EfficientRollout,一个专为RL推演设计的系统感知自推测解码框架。EfficientRollout从目标模型中诱导出一个量化草稿模型(即自推测解码),使其与不断变化的策略保持耦合,无需独立的草稿模型预训练或在线适配。它进一步协调了系统感知的SD开关策略与接受感知的草稿长度适配,仅在有利的机制下进行推测,同时使草稿预算匹配不断变化的草稿质量。与加速的自回归推演基线相比,EfficientRollout可将推演和端到端延迟分别降低高达19.6%和12.7%,同时保持最终模型质量。
查看原文
查看缓存全文

缓存时间: 2026/06/18 11:57

论文页面 - EfficientRollout:面向强化学习推出的系统感知自推测解码框架

来源:https://huggingface.co/papers/2606.18967

摘要

EfficientRollout 是一个系统感知的自推测解码框架,通过使草稿模型适应不断演化的策略并优化推测解码机制,来加速强化学习中的 rollout 生成。

强化学习 (https://huggingface.co/papers?q=Reinforcement%20learning) (RL) 已成为 LLM 的一种代表性的后训练范式,能够带来强大的推理和智能体能力。然而,rollout 生成 (https://huggingface.co/papers?q=rollout%20generation) 仍然是主要的延迟瓶颈,因为自回归采样 (https://huggingface.co/papers?q=autoregressive%20sampling) 会顺序解码响应,而少数长尾生成往往决定完成时间。推测解码 (https://huggingface.co/papers?q=Speculative%20decoding) (SD) 为解决这一瓶颈提供了自然途径:它是一种成熟的用于服务固定 LLM 的技术,通过快速生成草稿 token 并在并行验证中接受它们来减少延迟,同时保持目标模型分布。然而,其实际加速效果并不能直接应用于 RL rollout:(i) 不断变化的目标策略使得任何固定草稿模型与策略输出分布之间的匹配度越来越低;(ii) 活跃批次大小在 rollout 解码过程中不断缩小,使解码从计算受限状态转变为内存受限状态 (https://huggingface.co/papers?q=memory-bound%20regimes),此时并行验证可以利用未被充分利用的计算资源。因此,加速 RL rollout 既需要一个在从演化策略进行长序列、高温度生成时仍保持有效的草稿模型,也需要系统感知地使用 SD 以避免计算受限状态 (https://huggingface.co/papers?q=compute-bound%20regimes)。我们提出了 EfficientRollout,一个旨在填补这一空白的系统感知自 SD 框架,专门用于 RL rollout。EfficientRollout 从目标模型中诱导出一个量化草稿模型(即自推测解码 (https://huggingface.co/papers?q=self-speculative%20decoding)),使其与演化策略保持耦合,无需单独的草稿模型预训练或在线适应。它还进一步协调了一个系统感知的 SD 开关策略与接受率感知的草稿长度自适应 (https://huggingface.co/papers?q=acceptance-aware%20draft-length%20adaptation),仅在有利的机制下启用推测,同时使草稿预算与变化的草稿质量相匹配。与加速的 AR rollout 基线相比,EfficientRollout 可将 rollout 延迟和端到端延迟分别降低最多 19.6% 和 12.7%,同时保持最终模型质量。

查看 arXiv 页面 (https://arxiv.org/abs/2606.18967)查看 PDF (https://arxiv.org/pdf/2606.18967)GitHub1 (https://github.com/furiosa-ai/EfficientRollout)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.18967)

在你的 agent 中获取这篇论文:

hf papers read 2606\.18967

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接此论文

请在模型 README.md 中引用 arxiv.org/abs/2606.18967 以从此页面链接。

引用此论文的数据集0

没有数据集链接此论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.18967 以从此页面链接。

引用此论文的 Spaces0

没有 Space 链接此论文

请在 Space README.md 中引用 arxiv.org/abs/2606.18967 以从此页面链接。

包含此论文的收藏0

没有包含此论文的收藏

请将此论文添加到一个收藏 (https://huggingface.co/new-collection) 中以从此页面链接。

相似文章

面向强化学习后训练的跨轮次自适应展开优化

arXiv cs.LG

本文提出了CERO,一种用于LLM强化学习后训练的跨轮次自适应展开优化方法。该方法利用贝叶斯后验方差,在提示和轮次之间分配固定的展开预算,以最大化样本效率,实现了理论遗憾界,并在数学推理任务上优于GRPO。

Draft-OPD:面向推测式草稿模型的在线策略蒸馏

Hugging Face Daily Papers

Draft-OPD 引入在线策略蒸馏,结合目标辅助展开和错误重放,克服了训练用于推测解码的草稿模型时存在的离线到推理不匹配问题,实现了超过5倍的无损加速,相较于EAGLE-3和DFlash分别提升了23%和13%。