突破求解器瓶颈:在可学习前沿训练任务生成器

arXiv cs.LG 论文

摘要

介绍了PROPEL,一种求解器摊销框架,通过训练轻量级激活探针来预测求解器通过率,从而无需昂贵的求解器运行即可高效训练RL任务生成器。该方法在数学、代码和软件工程任务中改善了可学习前沿上的生成质量。

arXiv:2606.18284v1 公告类型:新 摘要:通过强化学习(RL)训练智能体的限制性资源日益成为前沿任务供应:那些有效、可解决、且恰好足够难来训练当前模型的任务。随着推理和智能模型的进步,固定任务分布逐渐饱和,而天真的合成生成会产生琐碎、不可能或不适定的任务。使用RL训练任务生成器以优化有效性和可学习性可以解决这一瓶颈,但直接优化需要对每个候选任务进行重复的求解器运行。对于软件工程(SWE)任务,单次运行可能耗时数十分钟;求解器在环的生成器训练难以实施。我们提出PROPEL,一种求解器摊销框架,用于在目标求解率下训练任务生成器。PROPEL在一次性标注的生成任务和求解器结果语料库上训练轻量级激活探针。该探针从冻结的生成器参考模型预测目标求解器的通过率,并在生成器优化期间作为求解率的代理,将生成器评估简化为单次前向传播。在多个模型规模的数学、代码和软件工程任务中,PROPEL将生成向目标求解率偏移:对于编程,在可学习前沿生成的任務对于Qwen2.5-3B-Instruct求解器从$10.1\% \rightarrow 20.0\%$,对于Qwen2.5-7B-Instruct求解器从$5.3\% \rightarrow 12.6\%$。对于SWE,PROPEL将目标求解率下的生成占比从$9.8\% \rightarrow 19.6\%$(在探针和生成器训练期间未见过的仓库上,针对Qwen3.5-27B)。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:40

# 突破求解器瓶颈:在可学习前沿训练任务生成器  
来源:https://arxiv.org/html/2606.18284 1\]Vmax 2\]Goodfire AI Connor WattsRoger Creus CastanyerGeoffrey BradwayMaxwill LinAugustine N\. Mavor\-ParkerMatthew Daborn\-Sargent\\[[\{lorenz, augustine, matthew\}@vmax\.ai (https://arxiv.org/html/2606.18284v1/mailto:%7Blorenz,%20augustine,%20matthew%[email protected]) \(2026年6月10日\)  

###### 摘要  

通过强化学习(RL)训练智能体的限制性资源日益变为前沿任务供给:即那些有效、可解且恰好足够困难以训练当前模型的任务。随着推理和智能体模型不断改进,固定的任务分布趋于饱和,而朴素的合成生成则产生琐碎、不可能或不适定(ill-posed)的任务。使用RL训练任务生成器以优化有效性和可学习性可以解决这一瓶颈,但直接优化需要对每个候选任务进行重复的求解器(solver)运行。对于软件工程(SWE)任务,单次运行可能耗时数十分钟;因此将求解器纳入循环的生成器训练是不可行的。我们提出PROPEL,一个基于求解器摊还(solver-amortized)的框架,用于在目标求解率(targeted solve rate)下训练任务生成器。PROPEL在一个一次性标注语料库(包含生成的任务及其求解器结果)上训练一个轻量级激活探针(probe)。该探针根据冻结的生成器参考模型(reference model)预测目标求解器的通过率,并在生成器优化期间作为求解率的代理,从而将生成器的评估简化为单次前向传播。在数学、代码和软件工程等多个模型规模下,PROPEL将生成导向目标求解率:对于代码任务,在可学习前沿生成的任务比例,针对Qwen2.5-3B-Instruct求解器从10.1%增至20.0%,针对Qwen2.5-7B-Instruct求解器从5.3%增至12.6%。对于SWE,PROPEL将目标求解率下的生成比例从9.8%提升至19.6%(针对Qwen3.5-27B,在探针和生成器训练期间未见过的仓库上)。  
\correspondence  

## 1 引言  

1数据收集2探针训练3RL训练4评估基础生成器(冻结)生成的任务激活值hh求解器模型k=8次试验/任务慢且昂贵难度标签0/80/8×(太难)1/81/8✓2/83/8✓3/8✓8/88/8×(饱和)11–3@83@8正样本!——RL的瓶颈求解器标签已摊还;求解器在环的RL代价高昂。目标y=1✓11–3@8y=0×{(hi,yi)}i=1N训练数据探针二元分类器训练探针从hi预测y∈{0,1}。参考模型冻结的基础副本生成任务生成器πθ训练探针预测难度0.68h(t)RL更新仅探针奖励 – RL循环内无求解器试验。RL前RL后0123≥4求解器通过次数(@k=8)求解器评估:任务向11–3@8转移。  
图1:流程概览:(1) 基础生成器产生一次性任务池,用昂贵的求解器进行标注。(2) 训练探针从生成器的隐藏状态预测这些难度标签。(3) 在RL期间,生成器提出任务;冻结的参考模型产生激活值,训练好的探针将其转换为奖励,因此内循环中从不调用求解器。(4) 最终在留出求解器上评估训练好的生成器,确认探针驱动的塑造转化为真正的难度增益。  

关于可验证奖励的强化学习(RLVR)已成为从语言模型中引出推理和智能体行为的主要方法(Guo et al., 2025a;Lambert, 2025;Liu et al., 2025b)。这一方法的进展受限于训练任务的供给。随着策略改进,固定任务分布趋于饱和,进一步的收益需要更困难且在当前能力前沿仍具有区分度的任务。手工策划的基准无法跟上,而朴素的合成生成往往产生要么过于简单、要么不适定的任务。一个自然的替代方案是使用RL训练一个*生成器*模型,奖励它为目标求解器生成格式良好且难度适中的任务(Zhao et al., 2025;Wei et al., 2025)。隐含的目标是*可区分性*——任务应挑战求解器但又不完全失败(Wei et al., 2025)。然而,评估候选任务需要运行求解器,在智能体设置中这代价高昂。对于SWE-bench风格的任务(Jimenez et al., 2024;Yang et al., 2026),单次运行可能需要数十分钟,因为它涉及仓库导航、工具调用和测试执行。一个可靠的难度信号需要对每个候选任务进行多次这样的运行以估计求解率。将这一循环嵌入生成器RL会使得在有意义分布上的训练变得不可行。同样的问题(程度较轻)也出现在竞争性数学和代码生成中,其中求解器试验成本较低但仍然昂贵且方差很高。标准的RLVR流程无法扩展到验证器本身是昂贵随机智能体的目标上;由于求解率、复杂度和求解成本不利,任务的合成生成扩展性很差。  

我们提出PROPEL——*在可学习边缘优化问题的探针奖励*(Probe Rewards for Optimizing Problems at the Edge of Learning)——一个基于求解器摊还的任务生成器训练框架。PROPEL建立在特征奖励强化学习(RLFR;Prasad et al., 2026)基础上,后者使用来自隐藏状态的可解释性特征监督开放式生成,我们将其适应于任务生成,并针对智能体设置的要求做出两项修改:为软件工程任务引入多步轨迹公式,并显式处理固定探针的模式坍缩。一个轻量探针在一个一次性标注的(任务,求解器结果)对语料库上训练一次,这些语料来自冻结参考生成器的激活;在RL期间,它取代实时的求解器运行作为奖励,将每步成本从多次求解器试验降低到单次前向传播(见图1)。这一构造利用了语言模型的一个被充分证明的特性:即使模型在生成时无法可靠地作用于感兴趣的量,这些量也常常在内部被表示(Orgad et al., 2024;Zhang et al., 2025a)。只要候选任务的格式良好性、可解性和难度校准可以从生成器隐藏状态解码,探针就能提供密集、近乎免费的信号,早在任何求解器运行确认之前就代表真实目标。  

我们证明PROPEL打破了生成器训练中的求解器瓶颈。针对激活探针而非实时求解器试验训练生成器,会为目标求解器产生更困难且更具区分度的任务,同时需要的求解器试验次数不到一半。PROPEL在数学、代码归纳和软件工程任务中,以及在求解器模型规模变化下,将生成可学习前沿任务的比率大约翻倍(例如,对于代码归纳,从10.1%增至20.0%,相对提升98%,目标为Qwen2.5-3B-Instruct求解器;从5.3%增至12.6%,相对提升138%,针对Qwen2.5-7B-Instruct,见图2)。为了缓解针对单个固定探针优化时出现的多样性损失,我们应用最坏情况优化(WCO)和探针的对抗协同进化。我们的贡献如下。  

参见图标题  
图2:PROPEL在生成任务的效用上显著优于基础方法。效用分别基于Qwen2.5-7B-Instruct求解器(AZR和数学)以及Qwen3.5-27B求解器(SWE,在留出的OOD仓库上)衡量。在数学上,效用报告为后预言机评分任务的结果。误差条为±1标准误(跨RL种子的标准误,SWE为单种子)。  
\{contributions\}  

*   PROPEL:用于任务生成的特征奖励,包括多步设置。  
    我们在基于求解器摊还的生成器RL流程中使用RLFR探针奖励,以激活探针替代求解器在环验证,将每步奖励成本从k次求解器运行降低到单次前向传播。PROPEL使得在诸如智能体SWE等求解器在环训练不可行的领域中,生成器RL变得可行。  

*   刻画模式坍缩并使用最坏情况优化缓解它。  
    我们观察到在固定探针优化下,会出现语义主题上的模式坍缩,并展示最坏情况优化可以缓解这一问题,同时相对于基础方法保持+86%的相对前沿增长率。我们还研究了正则化和对抗性探针协同进化。  

*   在数学、代码归纳和SWE多个模型规模上的实证收益。  
    在代码归纳中,PROPEL使生成器为求解器产生可学习前沿任务的比率大约翻倍(在3B模型上从10.1%增至20.0%,相对提升98%;在7B模型上从5.3%增至12.6%,相对提升138%)。在数学上,同样的流程在严格后预言机条件下显著提升了条件产出(针对Qwen2.5-7B-Instruct提升11个百分点,针对Qwen2.5-3B-Instruct提升17个百分点)。在成本显著更高且更复杂的SWE领域,针对Qwen3.5-27B求解器,PROPEL将可学习前沿bug的比率翻倍。  

*   在跨模型家族的探针冷转移评估。  
    我们展示了固定探针在生成器家族间的冷转移:一个在Qwen3.5-4B上训练的探针,在无需任何家族特定调整的情况下,迁移到Mistral-7B-Instruct-v0.3和Phi-3.5-mini-instruct时仍能带来显著的效用增益,表明编码的效用信号跨模型家族泛化。  

## 2 相关工作  

#### 合成任务生成与自对弈。  
越来越多的研究训练任务生成器,使其针对求解器的可学习前沿,其中两个先前系统对我们的设计有最直接的启发。Absolute Zero(Zhao et al., 2025)在演绎、溯因和归纳任务上自对弈提议者/求解者对;我们采纳其归纳格式及其核心观察:提议者需要一个既非微不足道也非不可解的难度信号。Self-play SWE-RL(Wei et al., 2025)将其移植到bug注入与修复,其注入奖励在求解器通过率接近0–1范围中间时达到峰值,直接激励了我们的求解器通过率@K效用。除此以外,任务生成工作涵盖数学和符号推理(Liang et al., 2025a;Li et al., 2025;Liu et al., 2025a;Lacombe et al., 2025)以及软件工程(Sonwane et al., 2025;Pan et al., 2024;Jain et al., 2025;Xie et al., 2026;Zhang et al., 2025c;Wang et al., 2025;Zhu et al., 2025),还有合成数据质量(Chen and Zhong, 2025)、求解器侧训练(Da et al., 2025)和抽象生成(Qu et al., 2025)等相邻工作。在使用RL训练任务生成器的方法中,奖励通常通过在每个候选任务上运行目标求解器来计算;我们用一个通过探针的单次前向传播替代了这些运行。  

#### 探针与内部状态奖励。  
探针已被用于预测推理正确性(Zhang et al., 2025a;David, 2025;Cencerrado et al., 2025)、对最佳N个候选评分(Guo et al., 2025b)以及校准评判者(Radharapu et al., 2025)。最近,一系列研究探索了在训练期间使用模型内部状态作为监督信号(Zhang et al., 2026;Liang et al., 2025b;Prasad et al., 2026)。与我们的工作最相关的是,Prasad等人(2026)引入了*特征奖励强化学习*(RLFR),这是一个使用模型内部状态的探针作为开放式任务可扩展奖励函数的框架。虽然RLFR分离了与幻觉相关的特征,但我们训练一个探针,从任务生成器的内部特征预测任务的训练效用(如3.2节所定义)。对于SWE任务生成,这要求我们将RLFR扩展到多轮轨迹。  

#### 奖励过优化与模式坍缩。  
优化任何学习到的奖励代理都受制于古德哈特效应(Gao et al., 2023;Kwa et al., 2024;Moskovitz et al., 2023)和模式坍缩,KL正则化本身可能驱动坍缩而非防止它(GX-Chen et al., 2025)。迭代RLHF在策略坍缩的输出上重新训练代理(Wolf et al., 2025),而口头化采样在解码层面保持多样性(Zhang et al., 2025b)。我们的对抗性探针协同进化遵循迭代反馈的配方:探针高但求解器失败的输出成为下一个探针的负样本。  

## 3 用于在可学习边缘优化问题的探针奖励  

我们研究针对*任务生成器*语言模型的强化学习,涵盖三个复杂度递增的领域:数学竞赛任务、代码归纳谜题(Absolute Zero Reasoner – AZR)和软件工程任务(SWE)。我们首先介绍形式化设定,然后讨论共享框架PROPEL,并在4.2节提供每个领域的细节。  

### 3.1 问题设定  

生成器策略πθ合成任务x∼πθ(·∣c),给定上下文c,其中包含简短指令、示例,或代表访问带有通过测试套件的Docker镜像。一个好的任务应满足以下两个标准:首先,它应该是有效的任务,即数学任务应有清晰的表述,代码归纳任务应可运行,bug应干净地应用并使之前通过的测试失败。其次,它应有助于训练:目标求解器有时应能解决,有时应失败。更正式地说,低成本的有效性检查是一个谓词W:X→{0,1},...

相似文章

GRLO:从零开始迈向开放环境下的通用强化学习

arXiv cs.LG

GRLO 提出了一种新颖的强化学习后训练方法,仅使用 5000 条提示和 22.7 GPU 小时,就在多个领域(数学、代码等)实现了强大的泛化能力,在效率和数据需求上显著优于领域内的 RLVR 基线。

ExpRL:面向LLM中期训练的探索式强化学习

Hugging Face Daily Papers

ExpRL是一种新的基于强化学习的中期训练方法,它使用人工编写的参考答案作为密集奖励支架(从未向策略展示),从而提升LLM推理能力,在AIME-2026等困难数学基准上取得了显著提升。

TD-Grokking:通过训练时分解从零奖励问题中学习

arXiv cs.LG

提出TD-Grokking,一种训练时分解框架,递归地将棘手的零奖励问题分解为可验证的子问题,使大语言模型能够从失败轨迹中学习。在数学和医学推理任务上优于普通GRPO及基线方法。