policy-alignment

#policy-alignment

FBOS-RL：反馈驱动的双目标协同强化学习

arXiv cs.LG ↗ · 2026-05-21 缓存

本文提出FBOS-RL，一个反馈驱动的双目标协同强化学习框架，通过使用反馈引导的探索和两个相互增强的训练目标——面向利用的策略对齐（EPA）和面向探索的能力培养（ECC）——来提升训练效率和性能上限，优于GRPO在大语言模型对齐和推理中的表现。

0 人收藏 0 人点赞