mixed-policy

标签

Cards List
#mixed-policy

近未来策略优化

Hugging Face Daily Papers · 2026-04-22 缓存

提出近未来策略优化(NPO),一种混合策略强化学习方法,通过在同一训练运行中利用更晚的 checkpoint 学习,加速收敛,将 Qwen3-VL-8B-Instruct 性能从 57.88 提升至 62.84。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈