multi-module-systems

#multi-module-systems

多模块 GRPO：组合策略梯度与提示优化的语言模型程序方法

Papers with Code Trending ↗ · 2025-08-06 缓存

本文提出 mmGRPO，一种多模块扩展的群体相对策略优化（GRPO）方法，通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明，该方法在各类任务上平均带来 11% 的准确率提升，并在 DSPy 中提供了开源实现。

0 人收藏 0 人点赞