mixed-policy

#mixed-policy

近未来策略优化

Hugging Face Daily Papers ↗ · 2026-04-22 缓存

提出近未来策略优化（NPO），一种混合策略强化学习方法，通过在同一训练运行中利用更晚的 checkpoint 学习，加速收敛，将 Qwen3-VL-8B-Instruct 性能从 57.88 提升至 62.84。

0 人收藏 0 人点赞