Hölder策略优化

Hugging Face Daily Papers 2026/05/12 00:00 论文

摘要

HölderPO 引入了一种通用策略优化框架，利用 Hölder 均值进行 GRPO 中的词元级概率聚合，并采用动态退火策略来平衡梯度集中与方差。该方法在数学基准测试中取得了最先进的结果（平均 54.9%，相对 GRPO 提升 7.2%），并在 ALFWorld 上实现了 93.8% 的成功率。

群体相对策略优化（GRPO）通过估计一组采样轨迹的优势来增强大型语言模型。然而，将这些轨迹级优势映射到策略更新时，需要聚合每个序列内的词元级概率。在此步骤中依赖固定的聚合机制从根本上限制了算法的适应性。实验发现，存在一个关键权衡：某些固定聚合经常导致训练崩溃，而另一些则无法产生令人满意的性能。为解决这一问题，我们提出 HölderPO，这是一个通过 Hölder 均值统一词元级概率聚合的通用策略优化框架。通过显式调节参数 p，我们的框架能连续控制梯度集中与方差界限之间的权衡。理论上，我们证明较大的 p 会使梯度集中以放大稀疏学习信号，而较小的 p 则严格限制梯度方差。由于没有静态配置能普遍解决这种集中-稳定性权衡，我们通过动态退火算法实例化该框架，在训练生命周期中逐步调度 p。大量评估表明，与现有基线相比，该方法具有更优的稳定性和收敛性。具体而言，我们的方法在多个数学基准测试中实现了 54.9% 的最先进平均准确率，相比标准 GRPO 获得了 7.2% 的显著相对提升，并在 ALFWorld 上取得了 93.8% 的卓越成功率。

查看原文

查看缓存全文

缓存时间: 2026/05/18 10:25

论文页面 - Hölder 策略优化

来源：https://huggingface.co/papers/2605.12058 作者：

，

摘要

GroupRelativePolicyOptimisation（GRPO）通过估计一组采样轨迹的优劣来增强大型语言模型。然而，将这些轨迹级别的优势映射到策略更新，需要聚合每个序列中的 token 级别概率。在此步骤中依赖固定的聚合机制从根本上限制了算法的适应性。根据经验，我们观察到关键权衡：某些固定聚合经常导致训练崩溃，而另一些则无法获得令人满意的性能。为解决此问题，我们提出 HölderPO，这是一个广义策略优化框架，通过 Hölder 均值统一了 token 级别概率的聚合。通过显式调节参数 p，我们的框架提供了对梯度集中度与方差界限之间权衡的连续控制。理论上，我们证明较大的 p 会使梯度集中，放大稀疏的学习信号，而较小的 p 则会严格限制梯度方差。由于没有静态配置能普遍解决这种集中-稳定性权衡，我们通过动态退火算法实例化该框架，该算法在训练生命周期内逐步调度 p。广泛的评估表明，与现有基线相比，我们的方法具有优越的稳定性和收敛性。具体而言，我们的方法在多个数学基准测试中达到了 54.9% 的最先进平均准确率，比标准 GRPO 实现了 7.2% 的相对提升，并在 ALFWorld 上获得了 93.8% 的出色成功率。

查看 arXiv 页面 (https://arxiv.org/abs/2605.12058) 查看 PDF (https://arxiv.org/pdf/2605.12058) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.12058)

在您的智能体中获取此论文：

hf papers read 2605.12058

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型 README.md 中引用 arxiv.org/abs/2605.12058，即可从此页面链接该模型。

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2605.12058，即可从此页面链接该数据集。

引用此论文的 Spaces0

没有 Space 链接此论文

在 Space README.md 中引用 arxiv.org/abs/2605.12058，即可从此页面链接该 Space。

包含此论文的收藏集0

没有收藏集包含此论文

将本论文添加至收藏集 (https://huggingface.co/new-collection)，即可从此页面链接该收藏集。

Hölder策略优化

论文页面 - Hölder 策略优化

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

多模块 GRPO：组合策略梯度与提示优化的语言模型程序方法

生成式OOD正则化的基于模型的策略优化

基于梯度外推的策略优化

F-GRPO: 分解式组相对策略优化用于统一候选生成与排序

LambdaPO: 面向推理语言模型的Lambda风格策略优化

提交意见反馈