近未来策略优化

Hugging Face Daily Papers 论文

摘要

提出近未来策略优化(NPO),一种混合策略强化学习方法,通过在同一训练运行中利用更晚的 checkpoint 学习,加速收敛,将 Qwen3-VL-8B-Instruct 性能从 57.88 提升至 62.84。

基于可验证奖励的强化学习(RLVR)已成为后训练的核心方案。在 on-policy 探索中引入合适的 off-policy 轨迹可加速 RLVR 收敛并抬高性能上限,但如何获得这类轨迹仍是关键难题。现有混合策略方法要么从外部教师导入轨迹(质量高但分布差异大),要么复用历史训练轨迹(分布近但质量受限),均无法同时满足“足够强”(更高 Q,蕴含更多新知识)与“足够近”(更低 V,更易吸收)这两个最大化有效学习信号 S = Q/V 的条件。 我们提出近未来策略优化(NPO),一种简单的混合策略框架:让策略向“不久后的自己”学习。同一训练运行中更晚的 checkpoint 天然提供辅助轨迹,其强度高于当前策略,分布又比任何外部来源更近,直接平衡轨迹质量与方差代价。 通过两种人工干预——早期启动与晚期突破——验证 NPO 效果,并进一步提出 AutoNPO:根据在线训练信号自动触发干预,并选择使 S 最大的引导 checkpoint。在 Qwen3-VL-8B-Instruct 上使用 GRPO,NPO 将平均性能从 57.88 提升至 62.84,AutoNPO 再推高至 63.15,在加速收敛的同时抬升最终性能上限。
查看原文
查看缓存全文

缓存时间: 2026/04/23 07:47

论文页面 - Near-Future Policy Optimization

来源:https://huggingface.co/papers/2604.20733

摘要

一种混合策略强化学习方法,通过“近未来策略优化”加速收敛并提升性能,在轨迹质量与方差之间取得平衡。

带可验证奖励的强化学习(https://huggingface.co/papers?q=Reinforcement%20learning)(RLVR)已成为后训练的核心配方。将合适的离策略轨迹(https://huggingface.co/papers?q=off-policy%20trajectories)引入同策略探索(https://huggingface.co/papers?q=on-policy%20exploration)可加速 RLVR 收敛并抬高性能天花板,但如何获得这类轨迹仍是关键难题。现有混合策略方法(https://huggingface.co/papers?q=mixed-policy%20methods)要么从外部教师导入轨迹(质量高但分布差异大),要么复用过去训练轨迹(分布近但质量受限),均无法同时满足“足够强(更高 Q,带来新知识)”与“足够近(更低 V,更易吸收)”这两个条件,以最大化有效学习信号(https://huggingface.co/papers?q=effective%20learning%20signal)S = Q/V。我们提出 Near-Future Policy Optimization(https://huggingface.co/papers?q=Policy%20Optimization)(NPO),一种简单的混合策略方案:让策略向“不远的未来”的自己学习。同一训练流程中稍后的检查点天然就是辅助轨迹源,既比当前策略强,又比任何外部源更近,直接平衡轨迹质量与方差代价。我们通过两种人工干预——早期自举(https://huggingface.co/papers?q=bootstrapping)与晚期突破平台(https://huggingface.co/papers?q=plateau%20breakthrough)——验证 NPO,并进一步提出 AutoNPO,一种自适应变体,可根据在线训练信号(https://huggingface.co/papers?q=online%20training%20signals)自动触发干预,并选择使 S 最大的引导检查点。在 Qwen3-VL-8B-Instruct 上使用 GRPO,NPO 将平均性能从 57.88 提升至 62.84,AutoNPO 进一步提升至 63.15,在加速收敛的同时抬高了最终性能天花板。

查看 arXiv 页面(https://arxiv.org/abs/2604.20733)查看 PDF(https://arxiv.org/pdf/2604.20733)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.20733)

在你的 agent 中获取该论文:

hf papers read 2604.20733

还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型关联该论文

在模型 README.md 中引用 arxiv.org/abs/2604.20733 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集关联该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.20733 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 关联该论文

在 Space README.md 中引用 arxiv.org/abs/2604.20733 即可在此页面显示链接。

收录该论文的合集 0

暂无合集收录该论文

将该论文添加到合集(https://huggingface.co/new-collection)即可在此页面显示链接。

相似文章

近端策略优化

OpenAI Blog

# 近端策略优化 来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度

SocraticPO:通过交互式指导的策略优化

arXiv cs.LG

SocraticPO通过苏格拉底式自然语言指导和奖励衰减增强强化学习(RL)的展开过程,以提升大语言模型(LLM)的科学推理能力,在SciKnowEval基准测试中超越强基线。

基于梯度外推的策略优化

arXiv cs.LG

本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。

向量策略优化:面向多样性的训练提升测试时搜索性能

Reddit r/LocalLLaMA

本文介绍了一种名为向量策略优化(Vector Policy Optimization, VPO)的强化学习算法,该算法通过优化多个奖励维度来训练大语言模型生成多样化的解决方案,与标量强化学习基线相比,显著提升了测试时搜索性能。