robust-optimization

#robust-optimization

ODRPO：离散奖励的序数分解用于鲁棒策略优化

arXiv cs.LG ↗ · 昨天缓存

介绍了ODRPO，一个将离散奖励分解为序数二元指标的框架，旨在提升LLMs中基于AI反馈的强化学习（RLAIF）策略优化的鲁棒性，在最小开销下实现了高达14.8%的相对改进。

0 人收藏 0 人点赞

#robust-optimization

arXiv cs.LG ↗ · 3天前缓存

本文介绍了 RQIQN，这是一种基于分位数的分布强化学习鲁棒方法，利用 Wasserstein 几何正则化来防止分布退化，并提升在风险敏感任务中的性能。

0 人收藏 0 人点赞