标签
介绍了ODRPO,一个将离散奖励分解为序数二元指标的框架,旨在提升LLMs中基于AI反馈的强化学习(RLAIF)策略优化的鲁棒性,在最小开销下实现了高达14.8%的相对改进。
本文介绍了 RQIQN,这是一种基于分位数的分布强化学习鲁棒方法,利用 Wasserstein 几何正则化来防止分布退化,并提升在风险敏感任务中的性能。