标签
本文提出FBOS-RL,一个反馈驱动的双目标协同强化学习框架,通过使用反馈引导的探索和两个相互增强的训练目标——面向利用的策略对齐(EPA)和面向探索的能力培养(ECC)——来提升训练效率和性能上限,优于GRPO在大语言模型对齐和推理中的表现。