多模块 GRPO：组合策略梯度与提示优化的语言模型程序方法

Papers with Code Trending 2025/08/06 17:28 论文

摘要

本文提出 mmGRPO，一种多模块扩展的群体相对策略优化（GRPO）方法，通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明，该方法在各类任务上平均带来 11% 的准确率提升，并在 DSPy 中提供了开源实现。

Group Relative Policy Optimization (GRPO) 已被证明是语言模型（LM）后训练的有效工具。然而，AI 系统正越来越多地被表达为模块化程序，这些程序将多个具有不同提示模板及其他工具的 LM 调用混合在一起，目前尚不清楚如何最有效地利用 GRPO 来改进这些系统。我们通过定义 mmGRPO 开始应对这一挑战，这是一种简单的多模块 GRPO 泛化方法，它按模块对跨 rollouts 的 LM 调用进行分组，并处理可变长度和中断的轨迹。我们发现，mmGRPO 与自动提示优化相结合，在分类、多跳搜索和隐私保护委托任务上，相比后训练的 LM 平均提升 11% 的准确率，相比单独的提示优化提升 5%。我们在 DSPy 中将 mmGRPO 开源为 dspy.GRPO 优化器。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 09:08

论文页面 - Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs

来源：https://huggingface.co/papers/2508.04660 作者：

摘要

mmGRPO 是 GRPO 的多模块扩展，通过优化各种任务中的 LM 调用和提示词，提升模块化 AI 系统的准确性。

Group Relative Policy Optimization（GRPO (https://huggingface.co/papers?q=GRPO)）已被证明是后训练语言模型 (https://huggingface.co/papers?q=post-training%20language%20models)（LMs）的有效工具。然而，AI 系统越来越多地被表达为模块化程序，混合使用多个 LM 调用 (https://huggingface.co/papers?q=LM%20calls) 、不同的提示词模板 (https://huggingface.co/papers?q=prompt%20templates) 和其他工具，目前尚不清楚如何最好地利用 GRPO (https://huggingface.co/papers?q=GRPO) 来改进这些系统。我们通过定义 mmGRPO (https://huggingface.co/papers?q=mmGRPO) 开始应对这一挑战，这是 GRPO (https://huggingface.co/papers?q=GRPO) 的一个简单多模块 (https://huggingface.co/papers?q=multi-module) 泛化，它按模块对 rollout 中的 LM 调用进行分组，并处理可变长度和中断的轨迹。我们发现，mmGRPO (https://huggingface.co/papers?q=mmGRPO) 与自动提示词优化 (https://huggingface.co/papers?q=automatic%20prompt%20optimization) 相结合，在分类 (https://huggingface.co/papers?q=classification) 、多跳搜索 (https://huggingface.co/papers?q=many-hop%20search) 和隐私保护委托 (https://huggingface.co/papers?q=privacy-preserving%20delegation) 任务上，相比后训练 LM 平均提升 11% 的准确率，相比单独的提示词优化提升 5%。我们在 DSPy 中开源了 mmGRPO (https://huggingface.co/papers?q=mmGRPO) ，作为 dspy.GRPO optimizer (https://huggingface.co/papers?q=dspy.GRPO%20optimizer) 。

查看 arXiv 页面 (https://arxiv.org/abs/2508.04660)查看 PDF (https://arxiv.org/pdf/2508.04660)项目页面 (https://dspy.ai/)GitHub34.3kauto (https://github.com/stanfordnlp/dspy)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2508.04660)

在您的 agent 中获取这篇论文：

hf papers read 2508.04660

还没有最新版 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2508.04660 以从此页面链接。

引用此论文的数据集 0

暂无数据集关联此论文

在数据集 README.md 中引用 arxiv.org/abs/2508.04660 以从此页面链接。

引用此论文的 Spaces 0

暂无 Space 关联此论文

在 Space README.md 中引用 arxiv.org/abs/2508.04660 以从此页面链接。

包含此论文的合集 0

暂无合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接。

多模块 GRPO：组合策略梯度与提示优化的语言模型程序方法

论文页面 - Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 0

相似文章

UDM-GRPO：面向均匀离散扩散模型的稳定高效群体相对策略优化

GroupDPO：内存高效的分组直接偏好优化

A^2TGPO：具有自适应回合级裁剪的代理回合组策略优化

近端策略优化

平衡聚合：理解与修复 GRPO 中的聚合偏差

提交意见反馈