异步智能体强化学习中丢失旧 logits:非策略修正中的语义不匹配及修复方法

Hugging Face Daily Papers 论文

摘要

本文探讨了大型语言模型(LLM)异步强化学习中的旧 logits 缺失问题,提出了精确与近似的修正方法,以提升训练稳定性和性能。

异步强化学习通过将样本生成与策略优化解耦,提高了大型语言模型智能体的 rollout 吞吐量,但也为 PPO 风格的非策略修正引入了一种关键的失效模式。在异构训练系统中,总重要性比率理想情况下应分解为两个语义上截然不同的因子:一个训练-推理差异项,用于对齐同一行为策略版本下的推理侧与训练侧分布;以及一个策略过时项,用于约束从历史策略到当前策略的更新。我们指出,具有延迟更新和部分 rollout 的实际异步管道经常丢失所需的训练侧历史 logits,即旧 logits。这种旧 logits 缺失问题将差异修复与过时修正纠缠在一起,破坏了解耦修正的预期语义,并导致裁剪和掩码阈值产生不良交互。为解决此问题,我们研究了精确和近似修正两条路径。我们提出了三种精确获取旧 logits 的策略:基于快照的版本跟踪、专用的旧 logits 模型,以及通过中断部分 rollout 实现的同步,并比较了它们的系统权衡。从近似修正的角度出发,我们关注在无法以低成本恢复精确旧 logits 时,如何通过更合适的近似策略来保留解耦修正的好处,且不增加额外的系统开销。基于此分析,我们采用了一种改进的 PPO-EWMA 方法,在训练速度和优化性能方面均取得了显著提升。代码见 https://github.com/millioniron/ROLL。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 08:11

论文页面 - 异步智能体强化学习中缺失的旧 Logits:策略外校正的语义不匹配与修复方法

来源:https://huggingface.co/papers/2605.12070

摘要

大型语言模型中的异步强化学习因更新延迟和缺失历史 logits 而面临 PPO 风格校正的挑战,本文通过精确和近似校正方法(包括快照追踪和修订版 PPO-EWMA 技术)解决这些问题。

异步强化学习(https://huggingface.co/papers?q=Asynchronous%20reinforcement%20learning)通过将样本生成与策略优化解耦,提高了大型语言模型智能体的 rollout 吞吐量(https://huggingface.co/papers?q=rollout%20throughput),但也给 PPO 风格的策略外校正(https://huggingface.co/papers?q=PPO-style%20off-policy%20correction)引入了关键的失效模式。在异构训练系统(https://huggingface.co/papers?q=heterogeneous%20training%20systems)中,总重要性比率(https://huggingface.co/papers?q=importance%20ratio)理想情况下应分解为两个语义上不同的因子:训练-推理差异项(https://huggingface.co/papers?q=training–inference%20discrepancy%20term),用于在相同行为策略版本下对齐推理侧和训练侧的分布;以及策略陈旧项(https://huggingface.co/papers?q=policy-staleness%20term),用于约束从历史策略到当前策略的更新。我们表明,具有延迟更新(https://huggingface.co/papers?q=delayed%20updates)和部分 rollout(https://huggingface.co/papers?q=partial%20rollouts)的实际异步管道通常会丢失所需的训练侧历史 logits,即旧 logits(https://huggingface.co/papers?q=old%20logits)。这种缺失旧 logits 的问题将差异修复与陈旧校正纠缠在一起,破坏了解耦校正的预期语义,并导致裁剪和掩码阈值产生不良交互。为解决此问题,我们研究了精确和近似校正(https://huggingface.co/papers?q=approximate%20correction)路径。我们提出了三种精确获取旧 logits 的策略:基于快照的版本追踪(https://huggingface.co/papers?q=snapshot-based%20version%20tracking)、专用的旧 logits 模型(https://huggingface.co/papers?q=old-logit%20model)以及通过部分 rollout 中断实现的同步(https://huggingface.co/papers?q=partial%20rollout%20interruption),并比较了它们的系统权衡。从近似校正(https://huggingface.co/papers?q=approximate%20correction)的角度来看,当无法低成本恢复精确旧 logits(https://huggingface.co/papers?q=old%20logits)时,我们关注通过使用更合适的近似策略来保留解耦校正的好处,且不增加额外的系统开销。基于此分析,我们采用了一种修订版的 PPO-EWMA(https://huggingface.co/papers?q=PPO-EWMA)方法,该方法在训练速度和优化性能方面均取得了显著提升。代码见 https://github.com/millioniron/ROLL。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12070) 查看 PDF (https://arxiv.org/pdf/2605.12070) GitHub0 (https://github.com/millioniron/ROLL) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12070)

在您的智能体中获取此论文:

hf papers read 2605\.12070

还没有最新的 CLI? curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.12070 以从此页面链接它。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.12070 以从此页面链接它。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.12070 以从此页面链接它。

包含此论文的集合 0

没有包含此论文的集合

将此论文添加到集合 (https://huggingface.co/new-collection) 以从此页面链接它。

相似文章

vLLM V0 到 V1:在 RL 中先保正确性,再谈修正

Hugging Face Blog

ServiceNow 工程师详细介绍了他们从 vLLM V0 迁移到 V1 的过程,重点解决了后端正确性问题,包括 logprob 语义和运行时默认值,以确保强化学习训练动态的稳定。

超越推理:强化学习释放大型语言模型中的参数化知识

arXiv cs.CL

本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。

从动作引导中学习智能体策略

arXiv cs.CL

本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。