policy-alignment

标签

Cards List
#policy-alignment

FBOS-RL:反馈驱动的双目标协同强化学习

arXiv cs.LG · 2026-05-21 缓存

本文提出FBOS-RL,一个反馈驱动的双目标协同强化学习框架,通过使用反馈引导的探索和两个相互增强的训练目标——面向利用的策略对齐(EPA)和面向探索的能力培养(ECC)——来提升训练效率和性能上限,优于GRPO在大语言模型对齐和推理中的表现。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈