近未来策略优化

Hugging Face Daily Papers 论文

摘要

提出近未来策略优化(NPO),一种混合策略强化学习方法,通过在同一训练运行中利用更晚的 checkpoint 学习,加速收敛,将 Qwen3-VL-8B-Instruct 性能从 57.88 提升至 62.84。

基于可验证奖励的强化学习(RLVR)已成为后训练的核心方案。在 on-policy 探索中引入合适的 off-policy 轨迹可加速 RLVR 收敛并抬高性能上限,但如何获得这类轨迹仍是关键难题。现有混合策略方法要么从外部教师导入轨迹(质量高但分布差异大),要么复用历史训练轨迹(分布近但质量受限),均无法同时满足“足够强”(更高 Q,蕴含更多新知识)与“足够近”(更低 V,更易吸收)这两个最大化有效学习信号 S = Q/V 的条件。 我们提出近未来策略优化(NPO),一种简单的混合策略框架:让策略向“不久后的自己”学习。同一训练运行中更晚的 checkpoint 天然提供辅助轨迹,其强度高于当前策略,分布又比任何外部来源更近,直接平衡轨迹质量与方差代价。 通过两种人工干预——早期启动与晚期突破——验证 NPO 效果,并进一步提出 AutoNPO:根据在线训练信号自动触发干预,并选择使 S 最大的引导 checkpoint。在 Qwen3-VL-8B-Instruct 上使用 GRPO,NPO 将平均性能从 57.88 提升至 62.84,AutoNPO 再推高至 63.15,在加速收敛的同时抬升最终性能上限。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/23 07:47

论文页面 - Near-Future Policy Optimization

来源:https://huggingface.co/papers/2604.20733

摘要

一种混合策略强化学习方法,通过“近未来策略优化”加速收敛并提升性能,在轨迹质量与方差之间取得平衡。

带可验证奖励的强化学习(https://huggingface.co/papers?q=Reinforcement%20learning)(RLVR)已成为后训练的核心配方。将合适的离策略轨迹(https://huggingface.co/papers?q=off-policy%20trajectories)引入同策略探索(https://huggingface.co/papers?q=on-policy%20exploration)可加速 RLVR 收敛并抬高性能天花板,但如何获得这类轨迹仍是关键难题。现有混合策略方法(https://huggingface.co/papers?q=mixed-policy%20methods)要么从外部教师导入轨迹(质量高但分布差异大),要么复用过去训练轨迹(分布近但质量受限),均无法同时满足“足够强(更高 Q,带来新知识)”与“足够近(更低 V,更易吸收)”这两个条件,以最大化有效学习信号(https://huggingface.co/papers?q=effective%20learning%20signal)S = Q/V。我们提出 Near-Future Policy Optimization(https://huggingface.co/papers?q=Policy%20Optimization)(NPO),一种简单的混合策略方案:让策略向“不远的未来”的自己学习。同一训练流程中稍后的检查点天然就是辅助轨迹源,既比当前策略强,又比任何外部源更近,直接平衡轨迹质量与方差代价。我们通过两种人工干预——早期自举(https://huggingface.co/papers?q=bootstrapping)与晚期突破平台(https://huggingface.co/papers?q=plateau%20breakthrough)——验证 NPO,并进一步提出 AutoNPO,一种自适应变体,可根据在线训练信号(https://huggingface.co/papers?q=online%20training%20signals)自动触发干预,并选择使 S 最大的引导检查点。在 Qwen3-VL-8B-Instruct 上使用 GRPO,NPO 将平均性能从 57.88 提升至 62.84,AutoNPO 进一步提升至 63.15,在加速收敛的同时抬高了最终性能天花板。

查看 arXiv 页面(https://arxiv.org/abs/2604.20733)查看 PDF(https://arxiv.org/pdf/2604.20733)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.20733)

在你的 agent 中获取该论文:

hf papers read 2604.20733

还没装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型关联该论文

在模型 README.md 中引用 arxiv.org/abs/2604.20733 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集关联该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.20733 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 关联该论文

在 Space README.md 中引用 arxiv.org/abs/2604.20733 即可在此页面显示链接。

收录该论文的合集 0

暂无合集收录该论文

将该论文添加到合集(https://huggingface.co/new-collection)即可在此页面显示链接。

相似文章

近端策略优化

OpenAI Blog

# 近端策略优化 来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度

多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法

Papers with Code Trending

本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。

进化策略梯度

OpenAI Blog

OpenAI 推出进化策略梯度(EPG),这是一种元学习方法,通过进化而非直接学习策略来学习损失函数,使强化学习代理能够通过利用类似人类技能迁移的先验经验,更好地跨任务泛化。

DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡

Hugging Face Daily Papers

# 论文页面 - DiPO:基于解耦困惑度的策略优化,实现细粒度探索-利用权衡 来源:[https://huggingface.co/papers/2604.13902](https://huggingface.co/papers/2604.13902) 作者:,,,,,,,,,, ## 摘要 一种面向大语言模型的新型强化学习方法,通过基于困惑度的样本划分与双向奖励分配机制,解决探索-利用权衡问题。[强化学习](https: