异步智能体强化学习中丢失旧 logits:非策略修正中的语义不匹配及修复方法
摘要
本文探讨了大型语言模型(LLM)异步强化学习中的旧 logits 缺失问题,提出了精确与近似的修正方法,以提升训练稳定性和性能。
查看缓存全文
缓存时间: 2026/05/13 08:11
论文页面 - 异步智能体强化学习中缺失的旧 Logits:策略外校正的语义不匹配与修复方法
来源:https://huggingface.co/papers/2605.12070
摘要
大型语言模型中的异步强化学习因更新延迟和缺失历史 logits 而面临 PPO 风格校正的挑战,本文通过精确和近似校正方法(包括快照追踪和修订版 PPO-EWMA 技术)解决这些问题。
异步强化学习(https://huggingface.co/papers?q=Asynchronous%20reinforcement%20learning)通过将样本生成与策略优化解耦,提高了大型语言模型智能体的 rollout 吞吐量(https://huggingface.co/papers?q=rollout%20throughput),但也给 PPO 风格的策略外校正(https://huggingface.co/papers?q=PPO-style%20off-policy%20correction)引入了关键的失效模式。在异构训练系统(https://huggingface.co/papers?q=heterogeneous%20training%20systems)中,总重要性比率(https://huggingface.co/papers?q=importance%20ratio)理想情况下应分解为两个语义上不同的因子:训练-推理差异项(https://huggingface.co/papers?q=training–inference%20discrepancy%20term),用于在相同行为策略版本下对齐推理侧和训练侧的分布;以及策略陈旧项(https://huggingface.co/papers?q=policy-staleness%20term),用于约束从历史策略到当前策略的更新。我们表明,具有延迟更新(https://huggingface.co/papers?q=delayed%20updates)和部分 rollout(https://huggingface.co/papers?q=partial%20rollouts)的实际异步管道通常会丢失所需的训练侧历史 logits,即旧 logits(https://huggingface.co/papers?q=old%20logits)。这种缺失旧 logits 的问题将差异修复与陈旧校正纠缠在一起,破坏了解耦校正的预期语义,并导致裁剪和掩码阈值产生不良交互。为解决此问题,我们研究了精确和近似校正(https://huggingface.co/papers?q=approximate%20correction)路径。我们提出了三种精确获取旧 logits 的策略:基于快照的版本追踪(https://huggingface.co/papers?q=snapshot-based%20version%20tracking)、专用的旧 logits 模型(https://huggingface.co/papers?q=old-logit%20model)以及通过部分 rollout 中断实现的同步(https://huggingface.co/papers?q=partial%20rollout%20interruption),并比较了它们的系统权衡。从近似校正(https://huggingface.co/papers?q=approximate%20correction)的角度来看,当无法低成本恢复精确旧 logits(https://huggingface.co/papers?q=old%20logits)时,我们关注通过使用更合适的近似策略来保留解耦校正的好处,且不增加额外的系统开销。基于此分析,我们采用了一种修订版的 PPO-EWMA(https://huggingface.co/papers?q=PPO-EWMA)方法,该方法在训练速度和优化性能方面均取得了显著提升。代码见 https://github.com/millioniron/ROLL。
查看 arXiv 页面 (https://arxiv.org/abs/2605.12070) 查看 PDF (https://arxiv.org/pdf/2605.12070) GitHub0 (https://github.com/millioniron/ROLL) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12070)
在您的智能体中获取此论文:
hf papers read 2605\.12070
还没有最新的 CLI? curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有链接此论文的模型
在模型 README.md 中引用 arxiv.org/abs/2605.12070 以从此页面链接它。
引用此论文的数据集 0
没有链接此论文的数据集
在数据集 README.md 中引用 arxiv.org/abs/2605.12070 以从此页面链接它。
引用此论文的 Spaces 0
没有链接此论文的 Space
在 Space README.md 中引用 arxiv.org/abs/2605.12070 以从此页面链接它。
包含此论文的集合 0
没有包含此论文的集合
将此论文添加到集合 (https://huggingface.co/new-collection) 以从此页面链接它。
相似文章
vLLM V0 到 V1:在 RL 中先保正确性,再谈修正
ServiceNow 工程师详细介绍了他们从 vLLM V0 迁移到 V1 的过程,重点解决了后端正确性问题,包括 logprob 语义和运行时默认值,以确保强化学习训练动态的稳定。
当被 LLM 持续更新时,有用的记忆会变得有缺陷(30 分钟阅读)
这项研究表明,即使基于真实解进行训练,通过蒸馏和巩固循环持续更新 LLM 智能体记忆也会导致性能倒退。研究发现,仅保留情景记忆优于基于文本的巩固,突显了当前自我改进范式的重大缺陷。
超越推理:强化学习释放大型语言模型中的参数化知识
本文探讨了强化学习能否在推理任务之外,进一步提升大型语言模型(LLM)对参数化知识的直接回忆能力。研究表明,通过二元奖励进行强化学习,可以通过重新分配概率质量来激活潜在知识,而非习得新事实,从而在事实性问答基准测试中取得显著提升。
并非所有Token都同等重要:通过强化学习中的Token重要性实现高效LLM推理
本文提出了一个强化学习框架,通过建模Token重要性来选择性地对不重要的Token进行惩罚,同时保留关键推理步骤,采用重要性感知奖励和动态长度奖励来减少冗余,在不牺牲准确性的前提下提高效率。
从动作引导中学习智能体策略
本文提出了 ActGuide-RL,这是一种利用人类动作数据作为指导来训练大语言模型(LLM)智能体策略的方法,旨在无需大量监督微调的情况下克服强化学习中的探索障碍。