BitTide
首页
Trending
论文
模型
工具
新闻
产品
事件
时间轴
搜索
订阅
English
登录
rlaif
标签
Cards
List
#rlaif
ODRPO:离散奖励的序数分解用于鲁棒策略优化
arXiv cs.LG
↗
· 昨天
缓存
介绍了ODRPO,一个将离散奖励分解为序数二元指标的框架,旨在提升LLMs中基于AI反馈的强化学习(RLAIF)策略优化的鲁棒性,在最小开销下实现了高达14.8%的相对改进。
0 人收藏
0 人点赞
← 返回首页
意见反馈
×
提交意见反馈
感谢您的反馈!
提交