近未来策略优化
摘要
提出近未来策略优化(NPO),一种混合策略强化学习方法,通过在同一训练运行中利用更晚的 checkpoint 学习,加速收敛,将 Qwen3-VL-8B-Instruct 性能从 57.88 提升至 62.84。
查看缓存全文
缓存时间: 2026/04/23 07:47
论文页面 - Near-Future Policy Optimization
来源:https://huggingface.co/papers/2604.20733
摘要
一种混合策略强化学习方法,通过“近未来策略优化”加速收敛并提升性能,在轨迹质量与方差之间取得平衡。
带可验证奖励的强化学习(https://huggingface.co/papers?q=Reinforcement%20learning)(RLVR)已成为后训练的核心配方。将合适的离策略轨迹(https://huggingface.co/papers?q=off-policy%20trajectories)引入同策略探索(https://huggingface.co/papers?q=on-policy%20exploration)可加速 RLVR 收敛并抬高性能天花板,但如何获得这类轨迹仍是关键难题。现有混合策略方法(https://huggingface.co/papers?q=mixed-policy%20methods)要么从外部教师导入轨迹(质量高但分布差异大),要么复用过去训练轨迹(分布近但质量受限),均无法同时满足“足够强(更高 Q,带来新知识)”与“足够近(更低 V,更易吸收)”这两个条件,以最大化有效学习信号(https://huggingface.co/papers?q=effective%20learning%20signal)S = Q/V。我们提出 Near-Future Policy Optimization(https://huggingface.co/papers?q=Policy%20Optimization)(NPO),一种简单的混合策略方案:让策略向“不远的未来”的自己学习。同一训练流程中稍后的检查点天然就是辅助轨迹源,既比当前策略强,又比任何外部源更近,直接平衡轨迹质量与方差代价。我们通过两种人工干预——早期自举(https://huggingface.co/papers?q=bootstrapping)与晚期突破平台(https://huggingface.co/papers?q=plateau%20breakthrough)——验证 NPO,并进一步提出 AutoNPO,一种自适应变体,可根据在线训练信号(https://huggingface.co/papers?q=online%20training%20signals)自动触发干预,并选择使 S 最大的引导检查点。在 Qwen3-VL-8B-Instruct 上使用 GRPO,NPO 将平均性能从 57.88 提升至 62.84,AutoNPO 进一步提升至 63.15,在加速收敛的同时抬高了最终性能天花板。
查看 arXiv 页面(https://arxiv.org/abs/2604.20733)查看 PDF(https://arxiv.org/pdf/2604.20733)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.20733)
在你的 agent 中获取该论文:
hf papers read 2604.20733
还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型关联该论文
在模型 README.md 中引用 arxiv.org/abs/2604.20733 即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集关联该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.20733 即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 关联该论文
在 Space README.md 中引用 arxiv.org/abs/2604.20733 即可在此页面显示链接。
收录该论文的合集 0
暂无合集收录该论文
将该论文添加到合集(https://huggingface.co/new-collection)即可在此页面显示链接。
相似文章
近端策略优化
# 近端策略优化 来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度
近似下一策略采样:在深度强化学习中替代保守目标策略更新
本文引入了近似下一策略采样(ANPS)作为深度强化学习中保守策略更新的替代方案。它提出了稳定值近似策略迭代(SV-API)和 SV-RL,通过将训练数据与下一策略的状态分布对齐,从而实现更大且更安全的策略更新。
多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。
进化策略梯度
OpenAI 推出进化策略梯度(EPG),这是一种元学习方法,通过进化而非直接学习策略来学习损失函数,使强化学习代理能够通过利用类似人类技能迁移的先验经验,更好地跨任务泛化。
DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡
# 论文页面 - DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡 来源:[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者:,,,,,,,,,, ## 摘要 一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡问题。[强化学习](https: