policy-gradient

#policy-gradient

EMAgnet：大型游戏中策略梯度自我博弈的参数空间EMA正则化

arXiv cs.LG ↗ · 2天前缓存

EMAgnet针对大型两人零和游戏中的策略梯度自我博弈引入了参数空间指数移动平均正则化，与均匀正则化目标相比，实现了更低的可利用性。

0 人收藏 0 人点赞

#policy-gradient

KLip-PPO: 从逐样本KL角度解读PPO-Clip

arXiv cs.LG ↗ · 2天前缓存

本文表明，近端策略优化(PPO)中裁剪替代目标的梯度可以被一个具有可变系数的逐样本KL散度惩罚项精确重现，揭示了裁剪替代目标的结构特性，并提出了新的设计方向。

0 人收藏 0 人点赞

#policy-gradient

在博弈论中，通才有时胜过专才

MIT News — Artificial Intelligence ↗ · 2026-06-17 缓存

麻省理工学院研究人员合著的一篇论文表明，通用策略梯度算法在不完全信息博弈中可以胜过专门的博弈论算法，挑战了该领域长期以来的假设。

0 人收藏 0 人点赞

#policy-gradient

嵌入模型路由的策略遗憾：具有低秩专家的上下文赌博机

arXiv cs.LG ↗ · 2026-06-16 缓存

本文将嵌入模型路由形式化为具有低秩专家的对抗性上下文线性赌博机，提出了Hypentropy策略梯度（HPG）算法，该算法实现了O~(s√(MT))的策略遗憾，避免了维度灾难。

0 人收藏 0 人点赞

#policy-gradient

无漂移扩散策略优化

arXiv cs.LG ↗ · 2026-06-15 缓存

DiPOD通过交错自蒸馏与策略梯度更新来稳定扩散策略优化，保持紧凑的ELBO，防止双重漂移现象，在语言和连续控制任务中均能获得更高奖励。

0 人收藏 0 人点赞

#policy-gradient

自蒸馏策略梯度

arXiv cs.LG ↗ · 2026-06-04 缓存

SDPG（自蒸馏策略梯度）是一种面向大语言模型的全新强化学习训练框架，结合了基于组相对验证器的优势函数、在线自蒸馏与KL正则化，旨在解决RLVR训练中稀疏奖励与训练不稳定的问题。该方法通过条件化特权上下文，使同一模型同时充当学生和教师，在稳定性和性能上均优于RLVR及自蒸馏基线方法。

0 人收藏 0 人点赞

#policy-gradient

基于重试的策略梯度强化学习中探索的涌现

arXiv cs.LG ↗ · 2026-06-02 缓存

本文提出ReMax，一种新的强化学习目标函数，通过基于多个样本的期望最大回报来评估策略，从而将探索作为涌现属性引入，无需显式的探索奖励。作者推导了策略梯度公式，并提出了RePPO，一种PPO变体，在MinAtar和Craftax基准测试上实现了高效探索。

0 人收藏 0 人点赞

#policy-gradient

自蒸馏策略梯度

Hugging Face Daily Papers ↗ · 2026-06-02 缓存

本文提出SDPG，一种自蒸馏策略梯度框架，结合在线策略自蒸馏、验证器优势及KL正则化，以提升强化学习的稳定性和性能。

0 人收藏 0 人点赞

#policy-gradient

完成与最优性：长期累积损伤问题中的策略梯度

arXiv cs.AI ↗ · 2026-05-27 缓存

本文识别了长期累积损伤问题中策略梯度方法的两种失败模式——完成与最优性——并提出了一种分别处理它们的分解方法，并在两个校准环境中进行了验证。

0 人收藏 0 人点赞

#policy-gradient

熵正则化演员-评论家方法的精细分析

arXiv cs.LG ↗ · 2026-05-26 缓存

本文对熵正则化演员-评论家方法进行了精细的理论分析，表明精确的评论家能起到强大的方差缩减作用，使样本复杂度可与确定性策略梯度相媲美，并且当学到的评论家足够准确时，这些优势得以保留。

0 人收藏 0 人点赞

#policy-gradient

ECHO: 终端代理免费学习世界模型

Hugging Face Daily Papers ↗ · 2026-05-23 缓存

ECHO引入了一种混合目标，将策略梯度损失与环境观测预测相结合，从终端反馈中提供密集监督，使Qwen3模型在TerminalBench-2.0上的性能翻倍。

0 人收藏 0 人点赞

#policy-gradient

表征优先于路由：克服多时间尺度PPO中的代理劫持

Hugging Face Daily Papers ↗ · 2026-05-21 缓存

本文指出了代理劫持和时间不确定性是多时间尺度强化学习中的失败模式，并提出了一种目标解耦架构，该架构从Actor中移除路由，利用Critic进行辅助表征学习。该方法消除了LunarLander-v2基准上的策略崩溃，并稳定地超越了'环境已解决'阈值，而无需超参数劫持。

0 人收藏 0 人点赞

#policy-gradient

DelTA：面向可验证奖励强化学习的判别性Token信用分配

Hugging Face Daily Papers ↗ · 2026-05-20 缓存

介绍DelTA，一种用于可验证奖励强化学习（RLVR）的判别性Token信用分配方法，该方法放大独特的Token梯度方向，减少共享模式的噪声，在数学和代码生成基准上取得了显著改进。

0 人收藏 0 人点赞

#policy-gradient

响应条件化的并行到序列编排用于多智能体系统

arXiv cs.CL ↗ · 2026-05-18 缓存

介绍Nexa，一种可训练的响应条件化策略，结合了多智能体系统中的并行和串行执行，使用轻量级Transformer预测稀疏通信图，在最小化延迟的同时提高准确性。

0 人收藏 0 人点赞

#policy-gradient

@probablynotaz9: ICML 单作者论文警报：是否曾想用经典策略梯度对扩散 LLM 进行后训练，而无需……

X AI KOLs Following ↗ · 2026-05-09 缓存

这篇 ICML 单作者论文介绍了摊销式组相对策略优化（AGRPO），旨在为扩散语言模型实现高效的强化学习后训练。

0 人收藏 0 人点赞

#policy-gradient

@jiqizhixin：太棒了！关于推理型LLM的强化学习现状 https://aweers.de/blog/2026/rl-for-llms/…

X AI KOLs Timeline ↗ · 2026-05-08 缓存

一篇全面回顾推理型LLM强化学习现状的博文，涵盖从REINFORCE、PPO到GRPO乃至更多方法，并与InstructGPT、DeepSeek-R1等关键模型相联系。

0 人收藏 0 人点赞

#policy-gradient

列表式策略优化：基于分组的 RLVR 作为 LLM 响应单纯形上的目标投影

Hugging Face Daily Papers ↗ · 2026-05-07 缓存

本文介绍了列表式策略优化（LPO），这是一种用于 RLVR 的方法，通过在响应单纯形上进行散度最小化来显式处理目标投影，从而提高大语言模型（LLM）的训练稳定性和性能。

0 人收藏 0 人点赞

#policy-gradient

GFT：基于无偏群组优势与动态系数修正，从模仿迈向奖励微调

Hugging Face Daily Papers ↗ · 2026-04-15 缓存

# 论文页面 - GFT：基于无偏群组优势与动态系数修正，从模仿迈向奖励微调来源：[https://huggingface.co/papers/2604.14258](https://huggingface.co/papers/2604.14258) ## 摘要 Group Fine-Tuning 通过利用多样化的回复群组和自适应权重边界来解决监督微调的局限性，从而提升训练稳定性与效率。大语言模型通常在后训练中使用[监督微调](https://hug

0 人收藏 0 人点赞

#policy-gradient

平衡聚合：理解与修复 GRPO 中的聚合偏差

Hugging Face Daily Papers ↗ · 2026-04-14 缓存

本文指出了 GRPO 风格的大语言模型强化学习中存在的聚合偏差问题，并提出了平衡聚合（Balanced Aggregation, BA）方法。该方法通过对正负子集分别计算 token 级均值，从而提高了训练稳定性和最终性能。

0 人收藏 0 人点赞

#policy-gradient

Spinning Up in Deep RL

OpenAI Blog ↗ · 2018-11-08 缓存

# Spinning Up in Deep RL 来源：[https://openai.com/index/spinning-up-in-deep-rl/](https://openai.com/index/spinning-up-in-deep-rl/) 在 OpenAI，我们相信深度学习——特别是深度强化学习——将在强大 AI 技术的发展中扮演核心角色。虽然有很多资源可以让人们快速入门深度学习，但深度强化学习的学习曲线更陡峭。我们设计了 Spinning Up 来帮助人们

0 人收藏 0 人点赞

policy-gradient

提交意见反馈