公平强化学习
摘要
公平强化学习引入了民主对齐,以整合来自不同代理的多个竞争性价值集,克服了传统RLHF的局限性,并通过黑盒策略包装器实现了数量级更快的优化。
**ICLR 2026 论文**
* ⚖️ **民主对齐:** 无缝整合来自不同代理的多个竞争性价值集,超越了传统RLHF的“一刀切”局限。
* 📦 **黑盒策略优化:** 作为围绕*标准策略优化*算法的包装器运行,消除了对状态或动作总数的直接依赖。
* 🚀 **数量级加速:** 大幅降低样本复杂度,与先前的表格方法相比,计算效率提升数个数量级。
相似文章
爱的迷雾:在游戏环境中利用基于亲和力的强化学习构建具有美德行为的智能体
本文介绍了一个基于桌游《爱的迷雾》的多智能体环境,用于评估基于亲和力的强化学习在赋予 AI 智能体美德行为方面的效果。作者证明,局部亲和力能够提升智能体在竞争性与合作性目标上的表现,推动机器伦理研究突破简单网格世界环境的局限。
FBOS-RL:反馈驱动的双目标协同强化学习
本文提出FBOS-RL,一个反馈驱动的双目标协同强化学习框架,通过使用反馈引导的探索和两个相互增强的训练目标——面向利用的策略对齐(EPA)和面向探索的能力培养(ECC)——来提升训练效率和性能上限,优于GRPO在大语言模型对齐和推理中的表现。
通过改变理性度来缓解RLHF中的认知偏差
本文提出了一种通过基于大型语言模型(LLM)对标注者可靠性的评估来动态调整理性度参数,从而缓解人类反馈强化学习(RLHF)中认知偏差的方法。
RLHF的另一面:基于策略内反馈的奖励模型自监督改进
SAVE框架通过使用价值函数对策略内响应进行评分,并通过对比目标更新模型,从而改善奖励模型训练,在六个基准测试中取得了优于其他方法的结果。
超越 SFT 到 RL:多模态强化学习中的黑盒策略蒸馏预对齐
本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。