annealing

#annealing

MOCHA: 基于切比雪夫退火的多目标智能体技能优化

arXiv cs.AI ↗ · 2026-05-20 缓存

MOCHA 提出了一种面向 LLM 智能体技能的多目标优化方法，通过切比雪夫标量化和指数退火策略来应对严格的平台约束，发现帕累托最优变体，相较于现有优化器取得了显著改进。

0 人收藏 0 人点赞

#annealing

Hugging Face Daily Papers ↗ · 2026-05-12 缓存

HölderPO 引入了一种通用策略优化框架，利用 Hölder 均值进行 GRPO 中的词元级概率聚合，并采用动态退火策略来平衡梯度集中与方差。该方法在数学基准测试中取得了最先进的结果（平均 54.9%，相对 GRPO 提升 7.2%），并在 ALFWorld 上实现了 93.8% 的成功率。

0 人收藏 0 人点赞