Hölder策略优化

Hugging Face Daily Papers 论文

摘要

HölderPO 引入了一种通用策略优化框架,利用 Hölder 均值进行 GRPO 中的词元级概率聚合,并采用动态退火策略来平衡梯度集中与方差。该方法在数学基准测试中取得了最先进的结果(平均 54.9%,相对 GRPO 提升 7.2%),并在 ALFWorld 上实现了 93.8% 的成功率。

群体相对策略优化(GRPO)通过估计一组采样轨迹的优势来增强大型语言模型。然而,将这些轨迹级优势映射到策略更新时,需要聚合每个序列内的词元级概率。在此步骤中依赖固定的聚合机制从根本上限制了算法的适应性。实验发现,存在一个关键权衡:某些固定聚合经常导致训练崩溃,而另一些则无法产生令人满意的性能。为解决这一问题,我们提出 HölderPO,这是一个通过 Hölder 均值统一词元级概率聚合的通用策略优化框架。通过显式调节参数 p,我们的框架能连续控制梯度集中与方差界限之间的权衡。理论上,我们证明较大的 p 会使梯度集中以放大稀疏学习信号,而较小的 p 则严格限制梯度方差。由于没有静态配置能普遍解决这种集中-稳定性权衡,我们通过动态退火算法实例化该框架,在训练生命周期中逐步调度 p。大量评估表明,与现有基线相比,该方法具有更优的稳定性和收敛性。具体而言,我们的方法在多个数学基准测试中实现了 54.9% 的最先进平均准确率,相比标准 GRPO 获得了 7.2% 的显著相对提升,并在 ALFWorld 上取得了 93.8% 的卓越成功率。
查看原文
查看缓存全文

缓存时间: 2026/05/18 10:25

论文页面 - Hölder 策略优化

来源:https://huggingface.co/papers/2605.12058 作者:

摘要

GroupRelativePolicyOptimisation(GRPO)通过估计一组采样轨迹的优劣来增强大型语言模型。然而,将这些轨迹级别的优势映射到策略更新,需要聚合每个序列中的 token 级别概率。在此步骤中依赖固定的聚合机制从根本上限制了算法的适应性。根据经验,我们观察到关键权衡:某些固定聚合经常导致训练崩溃,而另一些则无法获得令人满意的性能。为解决此问题,我们提出 HölderPO,这是一个广义策略优化框架,通过 Hölder 均值统一了 token 级别概率的聚合。通过显式调节参数 p,我们的框架提供了对梯度集中度与方差界限之间权衡的连续控制。理论上,我们证明较大的 p 会使梯度集中,放大稀疏的学习信号,而较小的 p 则会严格限制梯度方差。由于没有静态配置能普遍解决这种集中-稳定性权衡,我们通过动态退火算法实例化该框架,该算法在训练生命周期内逐步调度 p。广泛的评估表明,与现有基线相比,我们的方法具有优越的稳定性和收敛性。具体而言,我们的方法在多个数学基准测试中达到了 54.9% 的最先进平均准确率,比标准 GRPO 实现了 7.2% 的相对提升,并在 ALFWorld 上获得了 93.8% 的出色成功率。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12058) 查看 PDF (https://arxiv.org/pdf/2605.12058) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12058)

在您的智能体中获取此论文:

hf papers read 2605.12058

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.12058,即可从此页面链接该模型。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.12058,即可从此页面链接该数据集。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.12058,即可从此页面链接该 Space。

包含此论文的收藏集0

没有收藏集包含此论文

将本论文添加至收藏集 (https://huggingface.co/new-collection),即可从此页面链接该收藏集。

相似文章

多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法

Papers with Code Trending

本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。

生成式OOD正则化的基于模型的策略优化

arXiv cs.LG

介绍 GORMPO,一种密度正则化的离线强化学习算法,使用生成式密度建模将策略更新限制在高密度区域,在真实世界医疗数据集上实现17%的提升,并超越最先进的基线模型。

基于梯度外推的策略优化

arXiv cs.LG

本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。