rlaif

标签

Cards List
#rlaif

ODRPO:离散奖励的序数分解用于鲁棒策略优化

arXiv cs.LG · 昨天 缓存

介绍了ODRPO,一个将离散奖励分解为序数二元指标的框架,旨在提升LLMs中基于AI反馈的强化学习(RLAIF)策略优化的鲁棒性,在最小开销下实现了高达14.8%的相对改进。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈