公平强化学习

Reddit r/AI_Agents 论文

摘要

公平强化学习引入了民主对齐,以整合来自不同代理的多个竞争性价值集,克服了传统RLHF的局限性,并通过黑盒策略包装器实现了数量级更快的优化。

**ICLR 2026 论文** * ⚖️ **民主对齐:** 无缝整合来自不同代理的多个竞争性价值集,超越了传统RLHF的“一刀切”局限。 * 📦 **黑盒策略优化:** 作为围绕*标准策略优化*算法的包装器运行,消除了对状态或动作总数的直接依赖。 * 🚀 **数量级加速:** 大幅降低样本复杂度,与先前的表格方法相比,计算效率提升数个数量级。
查看原文

相似文章

FBOS-RL:反馈驱动的双目标协同强化学习

arXiv cs.LG

本文提出FBOS-RL,一个反馈驱动的双目标协同强化学习框架,通过使用反馈引导的探索和两个相互增强的训练目标——面向利用的策略对齐(EPA)和面向探索的能力培养(ECC)——来提升训练效率和性能上限,优于GRPO在大语言模型对齐和推理中的表现。

通过改变理性度来缓解RLHF中的认知偏差

arXiv cs.AI

本文提出了一种通过基于大型语言模型(LLM)对标注者可靠性的评估来动态调整理性度参数,从而缓解人类反馈强化学习(RLHF)中认知偏差的方法。

超越 SFT 到 RL:多模态强化学习中的黑盒策略蒸馏预对齐

Papers with Code Trending

本文介绍了 PRISM,一种在监督微调(SFT)和强化学习(RL)之间插入分布对齐阶段的方法,旨在缓解多模态模型中的分布漂移问题。该方法利用基于混合专家(MoE)判别器的黑盒对抗博弈,提升了如 Qwen3-VL 等模型的 RLVR 性能。