ppo

#ppo

PPO-HSC：一种基于广域策略覆盖优化的探索性强化学习框架

arXiv cs.AI ↗ · 2天前缓存

PPO-HSC引入了一种高阶采样覆盖奖励，以鼓励在LLM的强化学习微调中探索多样化的推理模式，从而在数学和代码任务上提升解决方案的多样性和状态空间覆盖。

0 人收藏 0 人点赞

#ppo

强化学习小手册

Hacker News Top ↗ · 6天前缓存

从基础到应用算法的强化学习简明介绍，包含PyTorch实现和补充证明。

0 人收藏 0 人点赞

#ppo

从评论家到置信度：用于语言定量预测与置信度估计的PPO

arXiv cs.CL ↗ · 2026-07-15 缓存

本文介绍了CARE-PPO，一种将置信度估计与PPO微调相结合的强化学习框架，用于基于语言的定量预测，使模型能够同时产生准确的数值估计和可靠的置信度信号，并在医疗和金融任务中进行了展示。

0 人收藏 0 人点赞

#ppo

安全探索者：一种针对带有恢复干预的强化学习的无偏策略梯度

arXiv cs.LG ↗ · 2026-07-13 缓存

安全探索者（SafeExplorer）引入了一种用于带有恢复干预的强化学习的无偏策略梯度估计器，在机器人任务上显著减少了训练期间的跌倒次数，同时达到或超过了标准PPO的最终奖励。

0 人收藏 0 人点赞

#ppo

@xennygrimmato_: 如果你想知道这篇论文中token级别的拒绝采样是如何工作的，这里是他们的做法：M_t = max_v [ pi_the…

X AI KOLs Timeline ↗ · 2026-07-11 缓存

解释RLHF/PPO中的token级别拒绝采样，其中重要性比率M_t是词汇表上的最大值，token根据w_t / M_t进行伯努利采样接受。

0 人收藏 0 人点赞

#ppo

强化学习智能体中跨诊断的类障碍表型空间

arXiv cs.LG ↗ · 2026-07-10 缓存

本文介绍了一种在强化学习智能体中诱导七种心理障碍的可控剂量方法，通过操作基于评估引导的PPO智能体中的认知评估信号。这些障碍自组织成一个二维情感空间，该框架可对障碍诱导和治疗进行建模。

0 人收藏 0 人点赞

#ppo

深度强化学习用于自主订单拣选机器人的动态电池管理

arXiv cs.LG ↗ · 2026-07-08 缓存

本文提出了一种基于近端策略优化（PPO）的深度强化学习框架，用于仓库中自主移动机器人的动态电池充电，与基线方法相比，最高可实现6%的订单完成率提升。

0 人收藏 0 人点赞

#ppo

演员-评论家强化学习中评论家复杂性的评估、度量与控制

arXiv cs.LG ↗ · 2026-07-02 缓存

本文引入频谱有效秩熵作为度量指标，用于在演员-评论家强化学习中测量和控制评论家复杂性，并在TD3和PPO实验中证明了其可测量性和可控性。

0 人收藏 0 人点赞

#ppo

重新审视复杂动作空间中的动作分解

arXiv cs.LG ↗ · 2026-06-26 缓存

本文提出了一项横断面研究，比较了在混合离散-连续动作空间中三种强化学习算法家族（PPO、SAC、DQN）上的各种动作分解方法（独立网络、共享编码器、VDN、QPLEX、联合、自回归），并引入了两个新的轻量级环境以及变体VDN-PPO和PPO-MIX。

0 人收藏 0 人点赞

#ppo

KLip-PPO: 从逐样本KL角度解读PPO-Clip

arXiv cs.LG ↗ · 2026-06-24 缓存

本文表明，近端策略优化(PPO)中裁剪替代目标的梯度可以被一个具有可变系数的逐样本KL散度惩罚项精确重现，揭示了裁剪替代目标的结构特性，并提出了新的设计方向。

0 人收藏 0 人点赞

#ppo

@Phoenixyin13: 如今大名鼎鼎、作为 ChatGPT 底层核心对齐算法之一的 PPO，在 2017 年竟然被顶级 AI 会议 NIPS（现 NeurIPS）给拒了。更讽刺的是审稿人给出的理由：创新性有限对比基线提升不够显著这个现象，直接扯下了学术界…

X AI KOLs Timeline ↗ · 2026-06-18 缓存

文章讲述了PPO算法作为ChatGPT核心对齐算法之一，曾在2017年被顶级AI会议NIPS拒稿，理由是创新性有限和提升不显著，揭示了学术界同行评审的弊端。

0 人收藏 0 人点赞

#ppo

@johnschulman2: PPO在LLM时代迎来了第二波，原因超出了原始论文的预期——重要性比率目标会修正由数值误差、异步训练和前向传播噪声引起的偏差——而裁剪目标通过一种我们当初发表时未知的机制影响熵（DAPO, https://arxiv.org/abs/2509.26114）

X AI KOLs Following ↗ · 2026-06-18 缓存

本文揭示了PPO和GRPO中的裁剪机制在LLM的RLVR中引入了熵偏差：低裁剪增加熵，高裁剪减少熵。作者证明，即使在随机奖励的情况下，标准裁剪也会降低熵，并表明调整低裁剪可以防止熵塌陷并促进探索。

0 人收藏 0 人点赞

#ppo

@Phoenixyin13: 强烈Recommend这个RL面试问题合集！ @sheriyuo 整理的35道RL benchmark，Algorithm+Infrastructure全覆盖，从PPO、GRPO的clip、KL penalty、advantage计算，到…

X AI KOLs Timeline ↗ · 2026-06-07 缓存

推荐一个由@sheriyuo整理的RL面试问题合集，覆盖PPO、GRPO、MoE、vLLM等算法与基础设施，适合准备LLM RL方向面试与研究者。

0 人收藏 0 人点赞

#ppo

读取轨迹，引导路径：面向扩散语言模型的轨迹感知强化学习

arXiv cs.CL ↗ · 2026-06-04 缓存

本文介绍了 CAPR（缓存摊销路径精化），一种用于扩散大语言模型的强化学习算法。该算法无需完整树展开的计算开销，即可从去噪轨迹中提取类树状监督信号。CAPR 在 GSM8K、Math500、数独和倒计时等推理基准测试上达到了最先进的性能，计算成本仅为平坦展开方式的约 0.75 倍。

0 人收藏 0 人点赞

#ppo

当LLM奖励设计失败：稀疏结构化强化学习的诊断驱动细化

arXiv cs.LG ↗ · 2026-05-29 缓存

本文将LLM生成的奖励塑形视为稀疏结构化强化学习中的调试问题，识别出奖励泛滥和语义误解等失败模式。作者提出诊断驱动的迭代细化，与一次性生成相比，取得了显著的成功率提升（例如，DoorKey-8×8从2.3%提升至97.6%）。

0 人收藏 0 人点赞

#ppo

Big 2中不完美信息下的自我对弈强化学习

arXiv cs.LG ↗ · 2026-05-29 缓存

本文提出了一个针对四人制不完美信息纸牌游戏Big 2的自我对弈强化学习框架，比较了策略梯度和基于价值的方法，并发现带有熵正则化的PPO优于其他方法。

0 人收藏 0 人点赞

#ppo

用于带经济器逻辑与CO2约束通风的空调机组的基于PPO直接控制的统一Python框架

arXiv cs.LG ↗ · 2026-05-26 缓存

提出了一种统一Python框架，采用基于PPO的深度强化学习来优化带经济器逻辑与CO2约束通风的暖通空调控制，展示了比传统PID控制器更优的能效和温度稳定性。

0 人收藏 0 人点赞

#ppo

并非所有转换都重要：来自PPO的证据

arXiv cs.LG ↗ · 2026-05-26 缓存

本文研究了使用PPO进行在线强化学习中的时间相关性问题，表明从轨迹中随机丢弃固定比例的转换可以减少梯度冗余并稳定训练，而不会降低性能。

0 人收藏 0 人点赞

#ppo

RL用于LLM的价值梯度假说

arXiv cs.LG ↗ · 2026-05-22 缓存

本文提出了价值梯度假说，用以解释为何像PPO和GRPO这类无评论家（critic-free）的RL方法在LLM上表现良好，揭示了演员网络的反向传播携带了类似价值梯度的信号。本文还推导出一个预测性准则，用于判断在预训练轨迹中何时RL最为有效。

0 人收藏 0 人点赞

#ppo

Show HN: 观看神经网络学习玩贪吃蛇

Hacker News Top ↗ · 2026-05-14 缓存

一个基于网页的工具，可实时可视化神经网络（使用PPO算法）学习玩贪吃蛇，支持可配置参数和3D渲染。

0 人收藏 0 人点赞

ppo

提交意见反馈