# 在弱反馈的代理代码修复中为 GRPO 进行信号重塑
摘要
本文提出了一种针对组相对策略优化(GRPO)的信号重塑方法,以改进弱反馈的代理代码修复,在编译和语义准确性方面取得了显著提升。
arXiv:2605.07276v1 公告类型:新文章
摘要:代码智能体强化学习(RL)通常接收到的反馈较弱:执行时的信号虽然可靠且可执行,但往往只能捕捉任务成功的必要或表面条件,而非目标语义谓词。在基于智能体“编译-修复”循环的设置下,我们研究了在此类反馈下对标准 GRPO 进行的信号重塑。我们的核心观点是,只有在三种信号经过重塑后,GRPO 的组内比较才具有实际意义:结果奖励恢复语义排序,过程信号实现轨迹内的信用分配,且来自同一提示(prompt)的执行过程保持可执行比较性。我们提出了一个最小的信号重塑构造方案来实现这些条件,同时保持 GRPO 的组归一化优势计算不变:编译与语义分层奖励重塑轨迹排序,位于组奖励归一化之外的步级过程分数重塑轨迹内的更新强度,而感知失败原因的执行治理则重塑组内可比较性。实验显示了明显的端到端性能提升:全信号重塑的 GRPO 将严格编译与语义准确率从零样本基线模型的 $0.385$ 提升至 $0.535$。对照实验进一步解释了这种增益的来源:二元奖励去除了仅编译中间层级,导致轨迹控制退化;在分层奖励基础上,过程分数加权进一步将准确率从 $0.48$ 提升至 $0.53$,并将平均评估步骤从 $23.50$ 减少至 $17.02$。作为边界比较,特权提示(privileged-prompt)的词元级蒸馏主要优化局部分布对齐;在长工具使用轨迹中,该信号会被非关键词元稀释,无法替代结果语义、过程信用或组内可比较性。
查看缓存全文
缓存时间: 2026/05/11 07:16
# 弱反馈智能体代码修复中 GRPO 的信号重塑 来源: https://arxiv.org/html/2605.07276 Jia Li¹ Yuxin Su² Ting Peng³ Hailiang Huang³ Yuetang Deng³ Michael R. Lyu¹ 1. 香港中文大学 2. 中山大学 3. 腾讯 [email protected], [email protected], [email protected] [email protected], [email protected], [email protected] ###### 摘要 代码智能体强化学习(RL)通常接收弱反馈:推理时的信号可靠且可执行,但仅捕捉到任务成功的必要或表面条件,而非目标语义谓词。我们以智能体编译修复(agentic compile-fix)为场景,研究在此类反馈下对标准 GRPO 的信号重塑。我们的核心观点是,只有经过三类信号重塑后,GRPO 的组内比较才有意义:结果奖励恢复语义排序,过程信号局部化轨迹内信用,来自同一提示的推理保持执行可比性。我们通过最小化的信号重塑构造来实现这些条件,同时保持 GRPO 的组归一化优势构造不变:编译与语义分层奖励重塑轨迹排序,位于组奖励归一化之外的步级过程分数重塑轨迹内更新强度,而感知失败原因的推理治理重塑组内可比性。实验显示出了明显的端到端增益:完全信号重塑的 GRPO 将严格编译与语义准确率从基座模型的零样本 0.385 提升至 0.535。对照比较进一步解释了这一增益的来源:二元奖励消除了仅编译中间层并退化了轨迹控制;在分层奖励基础上,过程分数加权进一步将准确率从 0.48 提升至 0.53,并将平均评估步骤从 23.50 减少到 17.02。作为边界对比,特权提示词级别的蒸馏主要优化局部分布对齐;在长工具使用轨迹中,该信号被非关键 token 稀释,无法替代结果语义、过程信用或组内可比性。 ## 1 引言 代码大型语言模型(LLM)正从一次性代码生成转向在真实仓库中的交互式软件修复\[11\]\[49\]\[43\]\[41\]\[16\]。一种常见范式将模型训练为代码智能体,通过 ReAct 风格的工具使用与仓库交互\[46\],并利用组相对强化学习(如 Group Relative Policy Optimization, GRPO)根据执行反馈更新策略\[31\]\[23\]\[45\]\[8\]。GRPO 依赖于相同提示下推理样本之间的相对排名;如果这些排名不再主要反映修复进度,优势更新可能会优化噪声或表面捷径。 智能体修复使得这一前提变得非平凡:轨迹不再是纯文本序列,而是由上下文读取、代码编辑、编译检查和显式终止组成的长交互;推理结果也共同由工具定义和执行资源决定。这意味着执行环境的抖动,以及执行反馈是否足以表征真正的修复成功,会影响优化目标本身。这种组内比较问题在*弱反馈智能体修复*中尤为突出。弱反馈是指仅检查必要或表面条件而非目标语义谓词的在线推理信号。我们以编译修复作为研究场景:不可编译的补丁不可能是正确的,但可编译的补丁可能仍然删除了所需代码、添加了不安全桩代码或绕过了失败路径。在训练期间,没有可用的可执行测试,且与参考补丁的字面相似性也不等于正确性。因此,SWE-bench \[11\]中的测试预言机或 SWE-RL \[41\]中的预言机补丁差异奖励都不能直接作为在线训练奖励。因此,编译修复是一个典型的弱反馈任务:执行反馈对于语义正确性是有信息量且必要的,但并非充分的。直接用于 GRPO 的同提示排名,组内比较可能会偏离真正的修复进度。信号重塑旨在将这些比较与修复意图重新对齐。 我们将弱反馈智能体修复首先视为一个*信号重塑*问题,而不是重写强化学习目标的呼吁。GRPO 依赖于同提示推理比较,但这种比较仅在奖励差异主要源于策略行为时有用。在我们的设定中,这一要求产生了三个信号条件:1)*结果语义失效*,即稳定的在线信号通常仅捕捉表面可接受性,当用作 \{0,1\} 奖励时,会诱导语法捷径(奖励黑客攻击);2)*弥散的过程信用*,即长期结果奖励无法区分有效的修复步骤和无信息的重复,稀释了语义信号;3)*组内可比性破裂*,即基础设施抖动(如编译队列或容器初始化失败)和策略退化(如无工具调用或灾难性重复)可能与真正的修复失败混合在同一个零奖励箱中,扭曲排名。因此,弱反馈智能体强化学习中的信号重塑归结为两个要求:*(A) 奖励必须在结果层面反映修复意图并支持有用的过程信用;以及 (B) 进入组内比较的推理必须在执行上可比*。我们将围绕现有 GRPO 更新修改训练信号称为*信号重塑*。我们使用信号重塑作为最小干预来测试这些要求。分层编译与语义奖励为不可执行、仅编译和语义正确的修复分配 0/0.5/1 分数,恢复跨轨迹的结果排名。步级过程分数作为 token 级损失权重,在每个推理内重新分配更新强度。感知失败原因的推理治理在不可比样本污染同组排名之前掩码或局部化不可学习的异常。该方法不是新的 GRPO 目标;它重塑了现有目标可以学习的信号。 实验逐层测试信号重塑。端到端而言,完全信号重塑的 GRPO 将严格编译与语义准确率从基座模型的零样本 0.385 提升至 0.535。对照比较首先测试结果语义:纯编译奖励使编译率早期飙升随后回落,而未提高编译与语义正确性。在固定推理治理下,分层奖励在中间层 $R=0.5$ 保留了约 0.30 的质量,而移除该层会共同退化轨迹控制和终止。从相同的分叉检查点开始,步级过程分数将准确率从 0.48 提升至 0.53,并将平均评估步骤从 23.50 减少到 17.02,表明过程信用提高了修复效率,而不仅仅是用更长的探索换取成功。这些结果表明信号重塑可以恢复可训练的 GRPO 比较。为了测试 token 级密集监督是否可以替代步级过程信用,我们进一步询问仅用于训练的特权提示是否可以通过蒸馏改善无提示策略。特权提示 $\pi$-Distill 和在线策略自蒸馏(OPSD)\[27\]均表现低于稳定的 GRPO 基线:$\pi$-Distill 保留了工具使用但倾向于过早终止,而 OPSD 表现出低熵、梯度增大和工具级退化。这一负面结果表明,Kullback–Leibler(KL)风格的局部分布匹配提供了密集的 token 级监督,但该信号对于长代码智能体轨迹过于弥散;见附录 D.2。图 1 总结了框架:弱反馈执行环境产生多轮推理;分层奖励重塑结果排名,步级过程分数重塑轨迹内信用,推理治理重塑组内可比性。右侧的 $\pi$-Distill 和 OPSD \[27\] 分支为 token 级 KL 路径提供了边界对比。 我们的主要贡献是: - 我们将弱反馈智能体修复中的 GRPO 训练表述为组内比较的信号重塑问题,确定了三个信号条件:语义有序的结果、局部化的过程信用和执行可比的同提示推理。 - 我们提出了一种具体的信号重塑方法,保持 GRPO 的组优势不变:分层奖励恢复结果排名,步级过程分数重新分配轨迹内更新强度,感知失败原因的治理保持同组推理可比。 - 我们在编译修复中验证了这些重塑信号:分层奖励恢复稳定训练,步级过程分数提高准确率和效率,token 级特权蒸馏表明局部分布匹配无法替代步级过程信用。 本文的其余部分形式化了设定(第 2 节),提出了构造方法(第 3 节),并测试了预测(第 4 节)。相关工作、局限性、提示和完整的蒸馏分析见附录。 > **图 1**: 弱反馈智能体修复中 GRPO 的信号重塑框架:分层奖励重塑结果排名,步级过程分数重塑轨迹内信用,推理治理重塑组内可比性。 ## 2 预备知识 本节固定弱反馈、多轮轨迹、仅助手掩码、GRPO 和 token 级 OPD 的符号。 #### 弱反馈。 令 $C(\tau)$ 表示推理期间可观察的执行级信号,$S(\tau)$ 表示目标语义成功谓词。当 $C$ 可靠且在线可用,但仅捕捉 $S$ 的必要条件而非充分条件时,反馈为*弱*。在编译修复中,$C$ 是编译成功:$C(\tau)=0$ 排除有效修复,但 $C(\tau)=1$ 不能保证补丁修复了预期错误。因此,语义正确性 $S$ 必须由单独的判断提供。问题不在于观测噪声,而在于信号不完整:在线执行反馈是有信息量的,但不足以定义策略应优化的任务谓词。 ### 2.1 多轮智能体 RL 与仅助手掩码 我们将智能体代码修复建模为有限视界马尔可夫决策过程(MDP)$\langle \mathcal{S}, \mathcal{A}, D, R, T \rangle$。状态 $\mathcal{S}$ 包含仓库状态和对话历史;$\mathcal{A}$ 包含自然语言输出和工具调用;$D$ 是外部运行时;$R$ 在终止后观察到;$T$ 是最大交互步骤数。给定初始提示和仓库状态 $x$,策略 $\pi_\theta$ 与环境交互以产生多轮轨迹 $\tau = (a_1, o_1, a_2, o_2, ..., a_{T'}, o_{T'})$,其中 $a_i$ 是模型动作,$o_i$ 是环境观测,且 $T' \le T$。目标是最大化 $\mathbb{E}_\tau[R(\tau)]$。 #### 仅助手掩码。 序列化轨迹包含模型生成和环境回声,但只有模型 token 由 $\pi_\theta$ 决定。令 $m_t \in \{0,1\}$ 标记 token $t$ 是否属于助手生成;$m_t=1$ 的 token 进入策略梯度,而 $m_t=0$ 的回声被掩码\[12\]\[28\]。 ### 2.2 GRPO GRPO \[31\] 通过比较来自同一提示的多个样本来避免显式的价值函数。对于每个提示,采样 $K$ 条轨迹 $\{\tau_k\}_{k=1}^K$,并将标量奖励 $R_k$ 组归一化为轨迹级优势: $$ \hat{A}_k = \frac{R_k - \bar{R}}{\mathrm{std}(\{R_i\}_{i=1}^K)}, \quad \bar{R} = \tfrac{1}{K} \sum_{i=1}^K R_i, $$ 这些优势广播到相应轨迹中的所有助手 token,记为 $\hat{A}_t \equiv \hat{A}_{k(t)}$。策略通过裁剪的策略梯度目标更新: $$ \mathcal{L}_{\text{GRPO}}(\theta) = - \, \mathbb{E}_{x, \, \{\tau_k\}_{k=1}^K} \frac{1}{\max(1, \sum_t m_t)} \sum_t m_t \, \min\!\Big( \rho_t(y_t) \, \hat{A}_t, \; \; \mathrm{clip}\big( \rho_t(y_t), \, 1-\epsilon_{\text{lo}}, \, 1+\epsilon_{\text{hi}} \big) \hat{A}_t \Big), $$ 其中 $y_t$ 是响应 token $t$,且 $\rho_t(y_t) = \pi_\theta(y_t \mid \cdot) / \pi_{\theta_{\text{old}}}(y_t \mid \cdot)$。KL 和熵正则化以标准方式添加(完整形式见附录 C.4)。 #### 组内比较先决条件。 公式 (2)–(3) 假设 $R$ 是任务成功的语义有意义度量,且来自同一提示的 $K$ 条轨迹在执行级别上可比。在弱反馈、长视界智能体任务中,这些假设未必成立;终端优势也广播在许多助手 token 上,这促使进行过程级信用分配。 ### 2.3 带有特权提示的 Token 级在线策略蒸馏 OPD \[1\] 匹配来自当前策略轨迹上的教师分布。我们使用特权提示 $\pi$-Distill 和 OPSD \[27\] 作为边界对比:$\pi$-Distill 从带提示的教师轨迹迁移到无提示的学生,而 OPSD 用带提示的教师评分无提示学生轨迹。两者都将掩码求和 token KL 作为 GRPO 奖励惩罚注入,方向为 $D_{\mathrm{KL}}(\pi^T \| \pi^S)$ 和 $D_{\mathrm{KL}}(\pi^S \| \pi^T)$。此路径假设教师偏好行为与学生可行行为对齐,且关键决策未被低信息 token 稀释。完整目标见附录 D.3;相应的实证分析见附录 D.2。 ## 3 方法 本节介绍信号重塑构造:分层奖
相似文章
多模块 GRPO:组合策略梯度与提示优化的语言模型程序方法
本文提出 mmGRPO,一种多模块扩展的群体相对策略优化(GRPO)方法,通过优化语言模型调用和提示来提升模块化 AI 系统的准确率。实验表明,该方法在各类任务上平均带来 11% 的准确率提升,并在 DSPy 中提供了开源实现。
驾驭极端 Token:基于高斯核优势重权重的协方差感知 GRPO
本文提出了一种协方差感知的组相对策略优化(GRPO)变体,该方法利用高斯核优势重权重技术来稳定训练熵,并提升大语言模型的推理性能。
AlphaGRPO:通过分解可验证奖励释放统一多模态模型中的自反式生成能力
AlphaGRPO 是一个新框架,将组相对策略优化(Group Relative Policy Optimization)应用于统一多模态模型(UMMs),通过自反式精炼和分解可验证奖励来增强生成效果。
利用超组相对策略优化推动生物分子效用-多样性前沿
本文介绍了 SGRPO,这是一种策略优化框架,通过结合集合级多样性奖励和效用来提升生物分子的生成能力。它在小分子和蛋白质设计等任务中展示了改进的效用-多样性权衡。
平衡聚合:理解与修复 GRPO 中的聚合偏差
本文指出了 GRPO 风格的大语言模型强化学习中存在的聚合偏差问题,并提出了平衡聚合(Balanced Aggregation, BA)方法。该方法通过对正负子集分别计算 token 级均值,从而提高了训练稳定性和最终性能。