标签
EMAgnet针对大型两人零和游戏中的策略梯度自我博弈引入了参数空间指数移动平均正则化,与均匀正则化目标相比,实现了更低的可利用性。
本文表明,近端策略优化(PPO)中裁剪替代目标的梯度可以被一个具有可变系数的逐样本KL散度惩罚项精确重现,揭示了裁剪替代目标的结构特性,并提出了新的设计方向。
麻省理工学院研究人员合著的一篇论文表明,通用策略梯度算法在不完全信息博弈中可以胜过专门的博弈论算法,挑战了该领域长期以来的假设。
本文将嵌入模型路由形式化为具有低秩专家的对抗性上下文线性赌博机,提出了Hypentropy策略梯度(HPG)算法,该算法实现了O~(s√(MT))的策略遗憾,避免了维度灾难。
DiPOD通过交错自蒸馏与策略梯度更新来稳定扩散策略优化,保持紧凑的ELBO,防止双重漂移现象,在语言和连续控制任务中均能获得更高奖励。
SDPG(自蒸馏策略梯度)是一种面向大语言模型的全新强化学习训练框架,结合了基于组相对验证器的优势函数、在线自蒸馏与KL正则化,旨在解决RLVR训练中稀疏奖励与训练不稳定的问题。该方法通过条件化特权上下文,使同一模型同时充当学生和教师,在稳定性和性能上均优于RLVR及自蒸馏基线方法。
本文提出ReMax,一种新的强化学习目标函数,通过基于多个样本的期望最大回报来评估策略,从而将探索作为涌现属性引入,无需显式的探索奖励。作者推导了策略梯度公式,并提出了RePPO,一种PPO变体,在MinAtar和Craftax基准测试上实现了高效探索。
本文识别了长期累积损伤问题中策略梯度方法的两种失败模式——完成与最优性——并提出了一种分别处理它们的分解方法,并在两个校准环境中进行了验证。
本文对熵正则化演员-评论家方法进行了精细的理论分析,表明精确的评论家能起到强大的方差缩减作用,使样本复杂度可与确定性策略梯度相媲美,并且当学到的评论家足够准确时,这些优势得以保留。
ECHO引入了一种混合目标,将策略梯度损失与环境观测预测相结合,从终端反馈中提供密集监督,使Qwen3模型在TerminalBench-2.0上的性能翻倍。
本文指出了代理劫持和时间不确定性是多时间尺度强化学习中的失败模式,并提出了一种目标解耦架构,该架构从Actor中移除路由,利用Critic进行辅助表征学习。该方法消除了LunarLander-v2基准上的策略崩溃,并稳定地超越了'环境已解决'阈值,而无需超参数劫持。
介绍DelTA,一种用于可验证奖励强化学习(RLVR)的判别性Token信用分配方法,该方法放大独特的Token梯度方向,减少共享模式的噪声,在数学和代码生成基准上取得了显著改进。
介绍Nexa,一种可训练的响应条件化策略,结合了多智能体系统中的并行和串行执行,使用轻量级Transformer预测稀疏通信图,在最小化延迟的同时提高准确性。
这篇 ICML 单作者论文介绍了摊销式组相对策略优化(AGRPO),旨在为扩散语言模型实现高效的强化学习后训练。
一篇全面回顾推理型LLM强化学习现状的博文,涵盖从REINFORCE、PPO到GRPO乃至更多方法,并与InstructGPT、DeepSeek-R1等关键模型相联系。
本文介绍了列表式策略优化(LPO),这是一种用于 RLVR 的方法,通过在响应单纯形上进行散度最小化来显式处理目标投影,从而提高大语言模型(LLM)的训练稳定性和性能。
# 论文页面 - GFT:基于无偏群组优势与动态系数修正,从模仿迈向奖励微调 来源:[https://huggingface.co/papers/2604.14258](https://huggingface.co/papers/2604.14258) ## 摘要 Group Fine-Tuning 通过利用多样化的回复群组和自适应权重边界来解决监督微调的局限性,从而提升训练稳定性与效率。大语言模型通常在后训练中使用[监督微调](https://hug
本文指出了 GRPO 风格的大语言模型强化学习中存在的聚合偏差问题,并提出了平衡聚合(Balanced Aggregation, BA)方法。该方法通过对正负子集分别计算 token 级均值,从而提高了训练稳定性和最终性能。
# Spinning Up in Deep RL 来源:[https://openai.com/index/spinning-up-in-deep-rl/](https://openai.com/index/spinning-up-in-deep-rl/) 在 OpenAI,我们相信深度学习——特别是深度强化学习——将在强大 AI 技术的发展中扮演核心角色。虽然有很多资源可以让人们快速入门深度学习,但深度强化学习的学习曲线更陡峭。我们设计了 Spinning Up 来帮助人们