robust-optimization

标签

Cards List
#robust-optimization

基于Block Lewis Weights的分布鲁棒线性回归

arXiv cs.LG · 昨天 缓存

本文提出了一种使用block Lewis weights进行组分布鲁棒最小二乘回归的算法,与内点法相比实现了改进的复杂度。它还提供了在平均损失和鲁棒损失之间进行插值的算法。

0 人收藏 0 人点赞
#robust-optimization

PROWL: 面向世界模型学习的优先遗憾驱动优化

arXiv cs.LG · 2026-05-20 缓存

介绍了一种优先遗憾驱动优化框架PROWL,该框架利用对抗性课程通过聚焦高误差轨迹来提升基于扩散的世界模型的鲁棒性,在MineRL中的分布外场景上取得了更好的性能。

0 人收藏 0 人点赞
#robust-optimization

ODRPO:离散奖励的序数分解用于鲁棒策略优化

arXiv cs.LG · 2026-05-14 缓存

介绍了ODRPO,一个将离散奖励分解为序数二元指标的框架,旨在提升LLMs中基于AI反馈的强化学习(RLAIF)策略优化的鲁棒性,在最小开销下实现了高达14.8%的相对改进。

0 人收藏 0 人点赞
#robust-optimization

面向分布强化学习的分位数几何正则化

arXiv cs.LG · 2026-05-12 缓存

本文介绍了 RQIQN,这是一种基于分位数的分布强化学习鲁棒方法,利用 Wasserstein 几何正则化来防止分布退化,并提升在风险敏感任务中的性能。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈