近未来策略优化

Hugging Face Daily Papers 2026/04/22 00:00 论文

摘要

提出近未来策略优化（NPO），一种混合策略强化学习方法，通过在同一训练运行中利用更晚的 checkpoint 学习，加速收敛，将 Qwen3-VL-8B-Instruct 性能从 57.88 提升至 62.84。

基于可验证奖励的强化学习（RLVR）已成为后训练的核心方案。在 on-policy 探索中引入合适的 off-policy 轨迹可加速 RLVR 收敛并抬高性能上限，但如何获得这类轨迹仍是关键难题。现有混合策略方法要么从外部教师导入轨迹（质量高但分布差异大），要么复用历史训练轨迹（分布近但质量受限），均无法同时满足“足够强”（更高 Q，蕴含更多新知识）与“足够近”（更低 V，更易吸收）这两个最大化有效学习信号 S = Q/V 的条件。我们提出近未来策略优化（NPO），一种简单的混合策略框架：让策略向“不久后的自己”学习。同一训练运行中更晚的 checkpoint 天然提供辅助轨迹，其强度高于当前策略，分布又比任何外部来源更近，直接平衡轨迹质量与方差代价。通过两种人工干预——早期启动与晚期突破——验证 NPO 效果，并进一步提出 AutoNPO：根据在线训练信号自动触发干预，并选择使 S 最大的引导 checkpoint。在 Qwen3-VL-8B-Instruct 上使用 GRPO，NPO 将平均性能从 57.88 提升至 62.84，AutoNPO 再推高至 63.15，在加速收敛的同时抬升最终性能上限。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/23 07:47

论文页面 - Near-Future Policy Optimization

来源：https://huggingface.co/papers/2604.20733

摘要

一种混合策略强化学习方法，通过“近未来策略优化”加速收敛并提升性能，在轨迹质量与方差之间取得平衡。

带可验证奖励的强化学习（https://huggingface.co/papers?q=Reinforcement%20learning）（RLVR）已成为后训练的核心配方。将合适的离策略轨迹（https://huggingface.co/papers?q=off-policy%20trajectories）引入同策略探索（https://huggingface.co/papers?q=on-policy%20exploration）可加速 RLVR 收敛并抬高性能天花板，但如何获得这类轨迹仍是关键难题。现有混合策略方法（https://huggingface.co/papers?q=mixed-policy%20methods）要么从外部教师导入轨迹（质量高但分布差异大），要么复用过去训练轨迹（分布近但质量受限），均无法同时满足“足够强（更高 Q，带来新知识）”与“足够近（更低 V，更易吸收）”这两个条件，以最大化有效学习信号（https://huggingface.co/papers?q=effective%20learning%20signal）S = Q/V。我们提出 Near-Future Policy Optimization（https://huggingface.co/papers?q=Policy%20Optimization）（NPO），一种简单的混合策略方案：让策略向“不远的未来”的自己学习。同一训练流程中稍后的检查点天然就是辅助轨迹源，既比当前策略强，又比任何外部源更近，直接平衡轨迹质量与方差代价。我们通过两种人工干预——早期自举（https://huggingface.co/papers?q=bootstrapping）与晚期突破平台（https://huggingface.co/papers?q=plateau%20breakthrough）——验证 NPO，并进一步提出 AutoNPO，一种自适应变体，可根据在线训练信号（https://huggingface.co/papers?q=online%20training%20signals）自动触发干预，并选择使 S 最大的引导检查点。在 Qwen3-VL-8B-Instruct 上使用 GRPO，NPO 将平均性能从 57.88 提升至 62.84，AutoNPO 进一步提升至 63.15，在加速收敛的同时抬高了最终性能天花板。

查看 arXiv 页面（https://arxiv.org/abs/2604.20733）查看 PDF（https://arxiv.org/pdf/2604.20733）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2604.20733）

在你的 agent 中获取该论文：

hf papers read 2604.20733

还没装最新 CLI？
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型关联该论文

在模型 README.md 中引用 arxiv.org/abs/2604.20733 即可在此页面显示链接。

引用该论文的数据集 0

暂无数据集关联该论文

在数据集 README.md 中引用 arxiv.org/abs/2604.20733 即可在此页面显示链接。

引用该论文的 Spaces 0

暂无 Space 关联该论文

在 Space README.md 中引用 arxiv.org/abs/2604.20733 即可在此页面显示链接。

收录该论文的合集 0

暂无合集收录该论文

将该论文添加到合集（https://huggingface.co/new-collection）即可在此页面显示链接。

近未来策略优化

论文页面 - Near-Future Policy Optimization

摘要

引用该论文的模型 0

引用该论文的数据集 0

引用该论文的 Spaces 0

收录该论文的合集 0

相似文章

近端策略优化

近似下一策略采样：在深度强化学习中替代保守目标策略更新

多模块 GRPO：组合策略梯度与提示优化的语言模型程序方法

进化策略梯度

DiPO：基于解耦困惑度的策略优化，实现细粒度探索-利用权衡

提交意见反馈