annealing

标签

Cards List
#annealing

MOCHA: 基于切比雪夫退火的多目标智能体技能优化

arXiv cs.AI · 2026-05-20 缓存

MOCHA 提出了一种面向 LLM 智能体技能的多目标优化方法,通过切比雪夫标量化和指数退火策略来应对严格的平台约束,发现帕累托最优变体,相较于现有优化器取得了显著改进。

0 人收藏 0 人点赞
#annealing

Hölder策略优化

Hugging Face Daily Papers · 2026-05-12 缓存

HölderPO 引入了一种通用策略优化框架,利用 Hölder 均值进行 GRPO 中的词元级概率聚合,并采用动态退火策略来平衡梯度集中与方差。该方法在数学基准测试中取得了最先进的结果(平均 54.9%,相对 GRPO 提升 7.2%),并在 ALFWorld 上实现了 93.8% 的成功率。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈