policy-optimization

#policy-optimization

近似下一策略采样：在深度强化学习中替代保守目标策略更新

arXiv cs.LG ↗ · 2天前缓存

本文引入了近似下一策略采样（ANPS）作为深度强化学习中保守策略更新的替代方案。它提出了稳定值近似策略迭代（SV-API）和 SV-RL，通过将训练数据与下一策略的状态分布对齐，从而实现更大且更安全的策略更新。

0 人收藏 0 人点赞

#policy-optimization

A^2TGPO：具有自适应回合级裁剪的代理回合组策略优化

Hugging Face Daily Papers ↗ · 3天前缓存

本文介绍了 A^2TGPO，这是一种针对代理式大语言模型（LLMs）的强化学习方法，它利用自适应回合级裁剪和信息增益归一化来改善多轮交互中的过程信用分配。

0 人收藏 0 人点赞

#policy-optimization

恢复扩散策略中的隐藏奖励

Hugging Face Daily Papers ↗ · 2026-05-01 缓存

本论文探讨了在基于扩散的策略中恢复隐藏奖励的方法，旨在提高此类模型的对齐程度或效率。

0 人收藏 0 人点赞

#policy-optimization

近未来策略优化

Hugging Face Daily Papers ↗ · 2026-04-22 缓存

提出近未来策略优化（NPO），一种混合策略强化学习方法，通过在同一训练运行中利用更晚的 checkpoint 学习，加速收敛，将 Qwen3-VL-8B-Instruct 性能从 57.88 提升至 62.84。

0 人收藏 0 人点赞

#policy-optimization

DiPO：基于解耦困惑度的策略优化，实现细粒度探索-利用权衡

Hugging Face Daily Papers ↗ · 2026-04-15 缓存

# 论文页面 - DiPO：基于解耦困惑度的策略优化，实现细粒度探索-利用权衡来源：[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者：,,,,,,,,,, ## 摘要一种面向大语言模型的新型强化学习方法，通过基于困惑度的样本划分与双向奖励分配机制，解决探索-利用权衡问题。[强化学习](https:

0 人收藏 0 人点赞

#policy-optimization

多模块 GRPO：组合策略梯度与提示优化的语言模型程序方法

Papers with Code Trending ↗ · 2025-08-06 缓存

本文提出 mmGRPO，一种多模块扩展的群体相对策略优化（GRPO）方法，通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明，该方法在各类任务上平均带来 11% 的准确率提升，并在 DSPy 中提供了开源实现。

0 人收藏 0 人点赞

#policy-optimization

量化强化学习中的泛化能力

OpenAI Blog ↗ · 2018-12-06 缓存

# 量化强化学习中的泛化能力来源: [https://openai.com/index/quantifying-generalization-in-reinforcement-learning/](https://openai.com/index/quantifying-generalization-in-reinforcement-learning/) 我们训练了9个智能体来玩CoinRun，每个智能体都有不同数量的可用训练关卡。前8个智能体分别在包含100到16,000个关卡的数据集上进行训练。最后一个智能体在不受限制的关卡集合上进行训练，因此该智能体永远不会看到相同的关卡两次。

0 人收藏 0 人点赞

#policy-optimization

通过参数噪声实现更好的探索

OpenAI Blog ↗ · 2017-07-27 缓存

OpenAI 提出了参数噪声技术，该方法向神经网络策略参数添加自适应噪声，而不是向动作空间添加噪声，使得智能体能够比传统动作噪声方法快得多地学习任务。该方法在 HalfCheetah 上实现了 2 倍的学习速度提升，代表了进化策略与 TRPO、DDPG 等深度强化学习方法之间的平衡点。

0 人收藏 0 人点赞

#policy-optimization

进化策略作为强化学习的可扩展替代方案

OpenAI Blog ↗ · 2017-03-24 缓存

OpenAI 提出进化策略（ES）作为一种可扩展的黑箱优化方法，可替代强化学习用于训练神经网络策略。进化策略通过将策略训练视为随机参数搜索来简化优化问题，该搜索基于奖励反馈反复采样并选择更优的参数配置。

0 人收藏 0 人点赞

policy-optimization

提交意见反馈