近未来策略优化
摘要
提出近未来策略优化(NPO),一种混合策略强化学习方法,通过在同一训练运行中利用更晚的 checkpoint 学习,加速收敛,将 Qwen3-VL-8B-Instruct 性能从 57.88 提升至 62.84。
查看缓存全文
缓存时间: 2026/04/23 07:47
论文页面 - Near-Future Policy Optimization
来源:https://huggingface.co/papers/2604.20733
摘要
一种混合策略强化学习方法,通过“近未来策略优化”加速收敛并提升性能,在轨迹质量与方差之间取得平衡。
带可验证奖励的强化学习(https://huggingface.co/papers?q=Reinforcement%20learning)(RLVR)已成为后训练的核心配方。将合适的离策略轨迹(https://huggingface.co/papers?q=off-policy%20trajectories)引入同策略探索(https://huggingface.co/papers?q=on-policy%20exploration)可加速 RLVR 收敛并抬高性能天花板,但如何获得这类轨迹仍是关键难题。现有混合策略方法(https://huggingface.co/papers?q=mixed-policy%20methods)要么从外部教师导入轨迹(质量高但分布差异大),要么复用过去训练轨迹(分布近但质量受限),均无法同时满足“足够强(更高 Q,带来新知识)”与“足够近(更低 V,更易吸收)”这两个条件,以最大化有效学习信号(https://huggingface.co/papers?q=effective%20learning%20signal)S = Q/V。我们提出 Near-Future Policy Optimization(https://huggingface.co/papers?q=Policy%20Optimization)(NPO),一种简单的混合策略方案:让策略向“不远的未来”的自己学习。同一训练流程中稍后的检查点天然就是辅助轨迹源,既比当前策略强,又比任何外部源更近,直接平衡轨迹质量与方差代价。我们通过两种人工干预——早期自举(https://huggingface.co/papers?q=bootstrapping)与晚期突破平台(https://huggingface.co/papers?q=plateau%20breakthrough)——验证 NPO,并进一步提出 AutoNPO,一种自适应变体,可根据在线训练信号(https://huggingface.co/papers?q=online%20training%20signals)自动触发干预,并选择使 S 最大的引导检查点。在 Qwen3-VL-8B-Instruct 上使用 GRPO,NPO 将平均性能从 57.88 提升至 62.84,AutoNPO 进一步提升至 63.15,在加速收敛的同时抬高了最终性能天花板。
查看 arXiv 页面(https://arxiv.org/abs/2604.20733)查看 PDF(https://arxiv.org/pdf/2604.20733)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.20733)
在你的 agent 中获取该论文:
hf papers read 2604.20733
还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash
引用该论文的模型 0
暂无模型关联该论文
在模型 README.md 中引用 arxiv.org/abs/2604.20733 即可在此页面显示链接。
引用该论文的数据集 0
暂无数据集关联该论文
在数据集 README.md 中引用 arxiv.org/abs/2604.20733 即可在此页面显示链接。
引用该论文的 Spaces 0
暂无 Space 关联该论文
在 Space README.md 中引用 arxiv.org/abs/2604.20733 即可在此页面显示链接。
收录该论文的合集 0
暂无合集收录该论文
将该论文添加到合集(https://huggingface.co/new-collection)即可在此页面显示链接。
相似文章
近端策略优化
# 近端策略优化 来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度
SocraticPO:通过交互式指导的策略优化
SocraticPO通过苏格拉底式自然语言指导和奖励衰减增强强化学习(RL)的展开过程,以提升大语言模型(LLM)的科学推理能力,在SciKnowEval基准测试中超越强基线。
基于梯度外推的策略优化
本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。
StepPO:面向智能体强化学习的步骤对齐策略优化
StepPO 引入了一种面向智能体强化学习的步骤中心范式,该范式将策略优化与智能体决策粒度对齐,在多轮交互任务中优于以令牌为中心的方法。
向量策略优化:面向多样性的训练提升测试时搜索性能
本文介绍了一种名为向量策略优化(Vector Policy Optimization, VPO)的强化学习算法,该算法通过优化多个奖励维度来训练大语言模型生成多样化的解决方案,与标量强化学习基线相比,显著提升了测试时搜索性能。