标签
MOCHA 提出了一种面向 LLM 智能体技能的多目标优化方法,通过切比雪夫标量化和指数退火策略来应对严格的平台约束,发现帕累托最优变体,相较于现有优化器取得了显著改进。
HölderPO 引入了一种通用策略优化框架,利用 Hölder 均值进行 GRPO 中的词元级概率聚合,并采用动态退火策略来平衡梯度集中与方差。该方法在数学基准测试中取得了最先进的结果(平均 54.9%,相对 GRPO 提升 7.2%),并在 ALFWorld 上实现了 93.8% 的成功率。