多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法
摘要
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。
查看缓存全文
缓存时间: 2026/05/08 09:08
论文页面 - Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs
来源:https://huggingface.co/papers/2508.04660 作者:
,
,
,
,
,
,
,
,
,
,
,
摘要
mmGRPO 是 GRPO 的多模块扩展,通过优化各种任务中的 LM 调用和提示词,提升模块化 AI 系统的准确性。
Group Relative Policy Optimization(GRPO (https://huggingface.co/papers?q=GRPO))已被证明是后训练语言模型 (https://huggingface.co/papers?q=post-training%20language%20models)(LMs)的有效工具。然而,AI 系统越来越多地被表达为模块化程序,混合使用多个 LM 调用 (https://huggingface.co/papers?q=LM%20calls) 、不同的提示词模板 (https://huggingface.co/papers?q=prompt%20templates) 和其他工具,目前尚不清楚如何最好地利用 GRPO (https://huggingface.co/papers?q=GRPO) 来改进这些系统。我们通过定义 mmGRPO (https://huggingface.co/papers?q=mmGRPO) 开始应对这一挑战,这是 GRPO (https://huggingface.co/papers?q=GRPO) 的一个简单多模块 (https://huggingface.co/papers?q=multi-module) 泛化,它按模块对 rollout 中的 LM 调用进行分组,并处理可变长度和中断的轨迹。我们发现,mmGRPO (https://huggingface.co/papers?q=mmGRPO) 与自动提示词优化 (https://huggingface.co/papers?q=automatic%20prompt%20optimization) 相结合,在分类 (https://huggingface.co/papers?q=classification) 、多跳搜索 (https://huggingface.co/papers?q=many-hop%20search) 和隐私保护委托 (https://huggingface.co/papers?q=privacy-preserving%20delegation) 任务上,相比后训练 LM 平均提升 11% 的准确率,相比单独的提示词优化提升 5%。我们在 DSPy 中开源了 mmGRPO (https://huggingface.co/papers?q=mmGRPO) ,作为 dspy.GRPO optimizer (https://huggingface.co/papers?q=dspy.GRPO%20optimizer) 。
查看 arXiv 页面 (https://arxiv.org/abs/2508.04660)查看 PDF (https://arxiv.org/pdf/2508.04660)项目页面 (https://dspy.ai/)GitHub34.3kauto (https://github.com/stanfordnlp/dspy)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2508.04660)
在您的 agent 中获取这篇论文:
hf papers read 2508.04660
还没有最新版 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
暂无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2508.04660 以从此页面链接。
引用此论文的数据集 0
暂无数据集关联此论文
在数据集 README.md 中引用 arxiv.org/abs/2508.04660 以从此页面链接。
引用此论文的 Spaces 0
暂无 Space 关联此论文
在 Space README.md 中引用 arxiv.org/abs/2508.04660 以从此页面链接。
包含此论文的合集 0
暂无合集包含此论文
将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
BiasGRPO:通过群体相对策略优化稳定高方差奖励环境中的偏见缓解
BiasGRPO 提出了一种利用群体相对策略优化(GRPO)的框架,通过对采样补全结果的奖励进行归一化,稳定 LLM 中社会偏见的缓解过程,在多个基准测试上优于 DPO 和 PPO。作者还发布了一个计算高效的偏见奖励模型,可无缝集成到多目标 RLHF 流水线中。
基于梯度外推的策略优化
本文介绍了基于梯度外推的策略优化(GXPO),这是一种仅使用三次反向传播即可在大型语言模型(LLM)的强化学习训练中近似多步前瞻的方法。它在保持固定活跃阶段成本的同时,在数学基准测试上展示了优于标准 GRPO 的推理性能。
N-GRPO:嵌入级邻居混合以增强策略优化
N-GRPO 在 GRPO 框架中引入语义邻居混合,以增强数学推理多样性并保持语义一致性,在数学基准和分布外任务上均取得了提升。
GD^2PO: 通过组动态奖励解耦策略优化缓解多奖励冲突
GD^2PO引入了一种冲突感知过滤机制,以缓解大型语言模型强化学习中的多奖励冲突,防止信号抵消并加速训练效率。
F-GRPO: 分解式组相对策略优化用于统一候选生成与排序
F-GRPO 提出了一种分解式组相对策略优化框架,将候选生成与排序统一在单个自回归LLM中,解决了信用分配问题,并在序列推荐和多跳问答基准上提升了顶级性能。