异步智能体强化学习中丢失旧 logits：非策略修正中的语义不匹配及修复方法

Hugging Face Daily Papers 2026/05/12 00:00 论文

摘要

本文探讨了大型语言模型（LLM）异步强化学习中的旧 logits 缺失问题，提出了精确与近似的修正方法，以提升训练稳定性和性能。

异步强化学习通过将样本生成与策略优化解耦，提高了大型语言模型智能体的 rollout 吞吐量，但也为 PPO 风格的非策略修正引入了一种关键的失效模式。在异构训练系统中，总重要性比率理想情况下应分解为两个语义上截然不同的因子：一个训练-推理差异项，用于对齐同一行为策略版本下的推理侧与训练侧分布；以及一个策略过时项，用于约束从历史策略到当前策略的更新。我们指出，具有延迟更新和部分 rollout 的实际异步管道经常丢失所需的训练侧历史 logits，即旧 logits。这种旧 logits 缺失问题将差异修复与过时修正纠缠在一起，破坏了解耦修正的预期语义，并导致裁剪和掩码阈值产生不良交互。为解决此问题，我们研究了精确和近似修正两条路径。我们提出了三种精确获取旧 logits 的策略：基于快照的版本跟踪、专用的旧 logits 模型，以及通过中断部分 rollout 实现的同步，并比较了它们的系统权衡。从近似修正的角度出发，我们关注在无法以低成本恢复精确旧 logits 时，如何通过更合适的近似策略来保留解耦修正的好处，且不增加额外的系统开销。基于此分析，我们采用了一种改进的 PPO-EWMA 方法，在训练速度和优化性能方面均取得了显著提升。代码见 https://github.com/millioniron/ROLL。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 08:11

论文页面 - 异步智能体强化学习中缺失的旧 Logits：策略外校正的语义不匹配与修复方法

来源：https://huggingface.co/papers/2605.12070

摘要

大型语言模型中的异步强化学习因更新延迟和缺失历史 logits 而面临 PPO 风格校正的挑战，本文通过精确和近似校正方法（包括快照追踪和修订版 PPO-EWMA 技术）解决这些问题。

异步强化学习（https://huggingface.co/papers?q=Asynchronous%20reinforcement%20learning）通过将样本生成与策略优化解耦，提高了大型语言模型智能体的 rollout 吞吐量（https://huggingface.co/papers?q=rollout%20throughput），但也给 PPO 风格的策略外校正（https://huggingface.co/papers?q=PPO-style%20off-policy%20correction）引入了关键的失效模式。在异构训练系统（https://huggingface.co/papers?q=heterogeneous%20training%20systems）中，总重要性比率（https://huggingface.co/papers?q=importance%20ratio）理想情况下应分解为两个语义上不同的因子：训练-推理差异项（https://huggingface.co/papers?q=training–inference%20discrepancy%20term），用于在相同行为策略版本下对齐推理侧和训练侧的分布；以及策略陈旧项（https://huggingface.co/papers?q=policy-staleness%20term），用于约束从历史策略到当前策略的更新。我们表明，具有延迟更新（https://huggingface.co/papers?q=delayed%20updates）和部分 rollout（https://huggingface.co/papers?q=partial%20rollouts）的实际异步管道通常会丢失所需的训练侧历史 logits，即旧 logits（https://huggingface.co/papers?q=old%20logits）。这种缺失旧 logits 的问题将差异修复与陈旧校正纠缠在一起，破坏了解耦校正的预期语义，并导致裁剪和掩码阈值产生不良交互。为解决此问题，我们研究了精确和近似校正（https://huggingface.co/papers?q=approximate%20correction）路径。我们提出了三种精确获取旧 logits 的策略：基于快照的版本追踪（https://huggingface.co/papers?q=snapshot-based%20version%20tracking）、专用的旧 logits 模型（https://huggingface.co/papers?q=old-logit%20model）以及通过部分 rollout 中断实现的同步（https://huggingface.co/papers?q=partial%20rollout%20interruption），并比较了它们的系统权衡。从近似校正（https://huggingface.co/papers?q=approximate%20correction）的角度来看，当无法低成本恢复精确旧 logits（https://huggingface.co/papers?q=old%20logits）时，我们关注通过使用更合适的近似策略来保留解耦校正的好处，且不增加额外的系统开销。基于此分析，我们采用了一种修订版的 PPO-EWMA（https://huggingface.co/papers?q=PPO-EWMA）方法，该方法在训练速度和优化性能方面均取得了显著提升。代码见 https://github.com/millioniron/ROLL。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12070) 查看 PDF (https://arxiv.org/pdf/2605.12070) GitHub0 (https://github.com/millioniron/ROLL) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12070)

在您的智能体中获取此论文：

hf papers read 2605\.12070

还没有最新的 CLI？ curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有链接此论文的模型

在模型 README.md 中引用 arxiv.org/abs/2605.12070 以从此页面链接它。

引用此论文的数据集 0

没有链接此论文的数据集

在数据集 README.md 中引用 arxiv.org/abs/2605.12070 以从此页面链接它。

引用此论文的 Spaces 0

没有链接此论文的 Space

在 Space README.md 中引用 arxiv.org/abs/2605.12070 以从此页面链接它。

包含此论文的集合 0

没有包含此论文的集合

将此论文添加到集合 (https://huggingface.co/new-collection) 以从此页面链接它。

异步智能体强化学习中丢失旧 logits：非策略修正中的语义不匹配及修复方法

论文页面 - 异步智能体强化学习中缺失的旧 Logits：策略外校正的语义不匹配与修复方法

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的集合 0

相似文章

vLLM V0 到 V1：在 RL 中先保正确性，再谈修正

当被 LLM 持续更新时，有用的记忆会变得有缺陷（30 分钟阅读）

超越推理：强化学习释放大型语言模型中的参数化知识

并非所有Token都同等重要：通过强化学习中的Token重要性实现高效LLM推理

从动作引导中学习智能体策略

提交意见反馈