标签
提出近未来策略优化(NPO),一种混合策略强化学习方法,通过在同一训练运行中利用更晚的 checkpoint 学习,加速收敛,将 Qwen3-VL-8B-Instruct 性能从 57.88 提升至 62.84。