dsp-y

#dsp-y

Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs

Papers with Code Trending ↗ · 2025-08-06 Cached

The paper introduces mmGRPO, a multi-module extension of Group Relative Policy Optimization (GRPO) that improves accuracy in modular AI systems by optimizing language model calls and prompts. It reports an average 11% accuracy improvement across various tasks and provides an open-source implementation in DSPy.

0 favorites 0 likes

dsp-y

Multi-module GRPO: Composing Policy Gradients and Prompt Optimization for Language Model Programs

Submit Feedback