多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法

Papers with Code Trending 论文

摘要

本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。

Group Relative Policy Optimization (GRPO) 已被证明是语言模型(LM)后训练的有效工具。然而,AI 系统正越来越多地被表达为模块化程序,这些程序将多个具有不同提示模板及其他工具的 LM 调用混合在一起,目前尚不清楚如何最有效地利用 GRPO 来改进这些系统。我们通过定义 mmGRPO 开始应对这一挑战,这是一种简单的多模块 GRPO 泛化方法,它按模块对跨 rollouts 的 LM 调用进行分组,并处理可变长度和中断的轨迹。我们发现,mmGRPO 与自动提示优化相结合,在分类、多跳搜索和隐私保护委托任务上,相比后训练的 LM 平均提升 11% 的准确率,相比单独的提示优化提升 5%。我们在 DSPy 中将 mmGRPO 开源为 dspy.GRPO 优化器。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 09:08

论文页面 - Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs

来源:https://huggingface.co/papers/2508.04660 作者:

,

,

,

,

,

,

,

,

,

,

,

摘要

mmGRPO 是 GRPO 的多模块扩展,通过优化各种任务中的 LM 调用和提示词,提升模块化 AI 系统的准确性。

Group Relative Policy Optimization(GRPO (https://huggingface.co/papers?q=GRPO))已被证明是后训练语言模型 (https://huggingface.co/papers?q=post-training%20language%20models)(LMs)的有效工具。然而,AI 系统越来越多地被表达为模块化程序,混合使用多个 LM 调用 (https://huggingface.co/papers?q=LM%20calls) 、不同的提示词模板 (https://huggingface.co/papers?q=prompt%20templates) 和其他工具,目前尚不清楚如何最好地利用 GRPO (https://huggingface.co/papers?q=GRPO) 来改进这些系统。我们通过定义 mmGRPO (https://huggingface.co/papers?q=mmGRPO) 开始应对这一挑战,这是 GRPO (https://huggingface.co/papers?q=GRPO) 的一个简单多模块 (https://huggingface.co/papers?q=multi-module) 泛化,它按模块对 rollout 中的 LM 调用进行分组,并处理可变长度和中断的轨迹。我们发现,mmGRPO (https://huggingface.co/papers?q=mmGRPO) 与自动提示词优化 (https://huggingface.co/papers?q=automatic%20prompt%20optimization) 相结合,在分类 (https://huggingface.co/papers?q=classification) 、多跳搜索 (https://huggingface.co/papers?q=many-hop%20search) 和隐私保护委托 (https://huggingface.co/papers?q=privacy-preserving%20delegation) 任务上,相比后训练 LM 平均提升 11% 的准确率,相比单独的提示词优化提升 5%。我们在 DSPy 中开源了 mmGRPO (https://huggingface.co/papers?q=mmGRPO) ,作为 dspy.GRPO optimizer (https://huggingface.co/papers?q=dspy.GRPO%20optimizer) 。

查看 arXiv 页面 (https://arxiv.org/abs/2508.04660)查看 PDF (https://arxiv.org/pdf/2508.04660)项目页面 (https://dspy.ai/)GitHub34.3kauto (https://github.com/stanfordnlp/dspy)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2508.04660)

在您的 agent 中获取这篇论文:

hf papers read 2508.04660

还没有最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2508.04660 以从此页面链接。

引用此论文的数据集 0

暂无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2508.04660 以从此页面链接。

引用此论文的 Spaces 0

暂无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2508.04660 以从此页面链接。

包含此论文的合集 0

暂无合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

GroupDPO:内存高效的分组直接偏好优化

arXiv cs.CL

GroupDPO 引入了一种内存高效的分组直接偏好优化算法,该算法利用每个提示的多个候选响应,通过解耦反向传播来减少峰值内存使用。该方法在离线和在线对齐设置中均展现出相比标准 DPO 的持续改进。

近端策略优化

OpenAI Blog

# 近端策略优化 来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度

平衡聚合:理解与修复 GRPO 中的聚合偏差

Hugging Face Daily Papers

本文指出了 GRPO 风格的大语言模型强化学习中存在的聚合偏差问题,并提出了平衡聚合(Balanced Aggregation, BA)方法。该方法通过对正负子集分别计算 token 级均值,从而提高了训练稳定性和最终性能。