多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法
摘要
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。
查看缓存全文
缓存时间: 2026/05/08 09:08
论文页面 - Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs
来源:https://huggingface.co/papers/2508.04660 作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
mmGRPO 是 GRPO 的多模块扩展,通过优化各种任务中的 LM 调用和提示词,提升模块化 AI 系统的准确性。
Group Relative Policy Optimization(GRPO (https://huggingface.co/papers?q=GRPO))已被证明是后训练语言模型 (https://huggingface.co/papers?q=post-training%20language%20models)(LMs)的有效工具。然而,AI 系统越来越多地被表达为模块化程序,混合使用多个 LM 调用 (https://huggingface.co/papers?q=LM%20calls) 、不同的提示词模板 (https://huggingface.co/papers?q=prompt%20templates) 和其他工具,目前尚不清楚如何最好地利用 GRPO (https://huggingface.co/papers?q=GRPO) 来改进这些系统。我们通过定义 mmGRPO (https://huggingface.co/papers?q=mmGRPO) 开始应对这一挑战,这是 GRPO (https://huggingface.co/papers?q=GRPO) 的一个简单多模块 (https://huggingface.co/papers?q=multi-module) 泛化,它按模块对 rollout 中的 LM 调用进行分组,并处理可变长度和中断的轨迹。我们发现,mmGRPO (https://huggingface.co/papers?q=mmGRPO) 与自动提示词优化 (https://huggingface.co/papers?q=automatic%20prompt%20optimization) 相结合,在分类 (https://huggingface.co/papers?q=classification) 、多跳搜索 (https://huggingface.co/papers?q=many-hop%20search) 和隐私保护委托 (https://huggingface.co/papers?q=privacy-preserving%20delegation) 任务上,相比后训练 LM 平均提升 11% 的准确率,相比单独的提示词优化提升 5%。我们在 DSPy 中开源了 mmGRPO (https://huggingface.co/papers?q=mmGRPO) ,作为 dspy.GRPO optimizer (https://huggingface.co/papers?q=dspy.GRPO%20optimizer) 。
查看 arXiv 页面 (https://arxiv.org/abs/2508.04660)查看 PDF (https://arxiv.org/pdf/2508.04660)项目页面 (https://dspy.ai/)GitHub34.3kauto (https://github.com/stanfordnlp/dspy)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2508.04660)
在您的 agent 中获取这篇论文:
hf papers read 2508.04660
还没有最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
暂无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2508.04660 以从此页面链接。
引用此论文的数据集 0
暂无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2508.04660 以从此页面链接。
引用此论文的 Spaces 0
暂无 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2508.04660 以从此页面链接。
包含此论文的合集 0
暂无合集包含此论文
将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
UDM-GRPO:面向均匀离散扩散模型的稳定高效群体相对策略优化
UDM-GRPO 为均匀离散扩散模型提出了一种稳定的强化学习训练框架,将 GenEval 准确率从 69% 提升至 96%,OCR 基准准确率从 8% 提升至 57%。
GroupDPO:内存高效的分组直接偏好优化
GroupDPO 引入了一种内存高效的分组直接偏好优化算法,该算法利用每个提示的多个候选响应,通过解耦反向传播来减少峰值内存使用。该方法在离线和在线对齐设置中均展现出相比标准 DPO 的持续改进。
A^2TGPO:具有自适应回合级裁剪的代理回合组策略优化
本文介绍了 A^2TGPO,这是一种针对代理式大语言模型(LLMs)的强化学习方法,它利用自适应回合级裁剪和信息增益归一化来改善多轮交互中的过程信用分配。
近端策略优化
# 近端策略优化 来源: [https://openai.com/index/openai-baselines-ppo/](https://openai.com/index/openai-baselines-ppo/) OpenAI 我们推出了一类新的强化学习算法——近端策略优化(PPO),其性能与最先进的方法相当或更优,同时实现和调优都要简单得多。由于易用性和良好的性能,PPO 已成为 OpenAI 的默认强化学习算法。[策略梯度
平衡聚合:理解与修复 GRPO 中的聚合偏差
本文指出了 GRPO 风格的大语言模型强化学习中存在的聚合偏差问题,并提出了平衡聚合(Balanced Aggregation, BA)方法。该方法通过对正负子集分别计算 token 级均值,从而提高了训练稳定性和最终性能。