EvoTrainer:面向自主智能体强化学习的LLM策略与训练框架协同进化
摘要
EvoTrainer提出了一种自主训练框架,通过经验反馈协同进化LLM策略与训练框架,在数学推理、代码生成以及长期软件工程任务上超越了人工设计的强化学习基线。
查看缓存全文
缓存时间: 2026/06/03 09:43
# EvoTrainer: 面向自主智能体强化学习的LLM策略与训练工具的协同进化
来源: https://arxiv.org/html/2606.03108
Guhong Chen¹, Yingcheng Shi², Yongbin Li²,†\dagger, Binhua Li², Xander Xu³, Hu Wei³, Shiwen Ni⁴, Min Yang¹,⁴,†\dagger, Jieping Ye²
¹中国科学院深圳先进技术研究院
²通义实验室![[未标注图片]](https://arxiv.org/html/2606.03108v1/figures/tongyi.jpg), 阿里巴巴集团
³阿里巴巴集团
⁴SUAT
###### 摘要
自主式LLM训练通常被表述为配方搜索,这导致训练工具在很大程度上保持静态。这一局限在智能体强化学习中尤为突出,因为其中不断变化的瓶颈和标量奖励掩盖了多样的失败模式。我们提出EvoTrainer,一种自主训练框架,通过经验反馈协同进化LLM策略和训练侧工具:它诊断轨迹级证据、修订诊断、回测干预,并积累可复用技能。在数学推理、竞赛编程代码生成以及仓库级软件工程上的评估表明,在相同数据、代码库和评估协议下,EvoTrainer匹配或超越了人工设计的RL基准,在长周期智能体SWE任务上增益最大。轨迹分析显示,保留的策略在不同领域发生分化,进化的诊断阻止了无效的高分分支被提升,可复用技能塑造了后续搜索。自主式LLM RL应超越配方搜索,走向策略与解读策略的训练工具的联合进化。
# EvoTrainer: 面向自主智能体强化学习的LLM策略与训练工具的协同进化
Guhong Chen¹, Yingcheng Shi², Yongbin Li²,†\dagger, Binhua Li², Xander Xu³, Hu Wei³, Shiwen Ni⁴, Min Yang¹,⁴,†\dagger, Jieping Ye²
¹中国科学院深圳先进技术研究院
²通义实验室![[未标注图片]](https://arxiv.org/html/2606.03108v1/figures/tongyi.jpg), 阿里巴巴集团
³阿里巴巴集团
⁴SUAT
$^{\dagger}$$^{\dagger}$脚注文本:通讯作者: [email protected] (https://arxiv.org/html/2606.03108v1/mailto:[email protected]), [email protected] (https://arxiv.org/html/2606.03108v1/mailto:[email protected])
## 1 引言
AI系统开始通过编辑代码、启动实验、检查结果并提出新的训练版本来参与模型开发(Karpathy, 2026 (https://arxiv.org/html/2606.03108#bib.bib15); Lu et al., 2024 (https://arxiv.org/html/2606.03108#bib.bib21); Yamada et al., 2025 (https://arxiv.org/html/2606.03108#bib.bib31); Ning et al., 2026 (https://arxiv.org/html/2606.03108#bib.bib22); Jeddi et al., 2026 (https://arxiv.org/html/2606.03108#bib.bib14))。这些系统表明,未来的模型改进可能不仅依赖于人类设计的训练配方,还依赖于能够通过经验反馈迭代修订配方的智能体。
参照图注
图1: EvoTrainer概览:一种自主训练框架,协同进化LLM策略和训练侧诊断工具,在SWE-9B上超过人工设计的RL基线达+4.39 BC%。
然而,大多数自主实验系统仍然使训练周围的决策基础设施基本保持不变:它们搜索候选配方,但却依赖相同的诊断视图、记忆和干预逻辑来解释每个新结果。这在复杂的强化学习中具有局限性,因为主导瓶颈可能从奖励稀疏转变为行为崩溃,从评估伪影转变为低信息量的轨迹组,或者从配方选择转变为对可复用诊断工具的需求。标量验证分数只是一种可见的失败模式;更广泛的问题在于,指导训练所需的证据和程序本身可能也需要进化。这一挑战在智能体RL中尤为突出。在此类设置中,模型可能需要搜索文件、调用工具、编辑代码、执行测试、检查错误消息,并在经过多个回合后才提交最终解决方案。由此产生的训练过程难以用固定的诊断模板来引导:成功的分数可能隐藏奖励泄露或不健康的行为,失败的分支可能揭示有价值的负面证据,而后来的版本可能需要早期版本中不必要进行的分析。因此,解读训练结果所需的诊断方法往往随着版本变化,并且难以事先完全指定。
本文研究训练系统本身作为改进的对象。我们使用术语“教练”(trainer)来指代观察已完成版本、分析轨迹证据、提出干预措施、更新诊断基础设施并确定下一步应测试什么的决策系统。策略在单次训练运行中改进;教练则通过在多次训练运行中积累证据、修订其工具并复用操作技能来改进自身。我们提出EvoTrainer (图1 (https://arxiv.org/html/2606.03108#S1.F1)),这是一种自主训练框架,通过两个耦合过程协同进化LLM策略和训练侧诊断工具:策略自进化——通过受控干预生成、比较、剪枝、提升和合并可运行的训练版本;教练自反思——当现有指标、分析器、回测或搜索程序不足时,训练侧工具自行进化。持久记忆和可复用技能库使后续迭代可以检索失败分支的教训、诊断脚本以及先前验证过的机制。教练智能体通过构建版本、诊断结果、修订工具和提出干预措施来自主运行这一循环,而人类则负责引导工作区并批准成本高昂或影响重大的执行(第3.5节 (https://arxiv.org/html/2606.03108#S3.SS5))。
表1 (https://arxiv.org/html/2606.03108#S1.T1) 将EvoTrainer与其他代表性自主实验系统进行了定位比较。AutoResearch 和 Bilevel Autoresearch 针对GPT预训练基准上的训练配方优化(Karpathy, 2026 (https://arxiv.org/html/2606.03108#bib.bib15); Qu and Lu, 2026 (https://arxiv.org/html/2606.03108#bib.bib24))。GEAR 引入了对智能体代码的种群式搜索(Jeddi et al., 2026 (https://arxiv.org/html/2606.03108#bib.bib14));Meta-Harness 和 AHE 针对LLM应用的推理侧工具进行优化(Lee et al., 2026 (https://arxiv.org/html/2606.03108#bib.bib16); Lin et al., 2026 (https://arxiv.org/html/2606.03108#bib.bib18))。据我们所知,EvoTrainer是首个在智能体LLM RL中把训练侧诊断工具本身视为进化对象的自主训练框架。
表1: 与代表性自主实验系统的能力比较。推理侧工具进化优化模型在推理时的脚手架(上下文、工具、记忆);训练侧工具进化修订在训练时解读结果的诊断基础设施。符号:✓= 支持该能力;✗= 根据引用的论文不存在;—= 根据引用的论文不清楚。
我们在数学推理、竞赛编程代码生成以及仓库级软件工程上评估EvoTrainer。EvoTrainer在每个领域都持续优于无RL的基线,并且匹配或超过了在相同数据、代码库和评估协议下开发的人工设计的RL基准,在SWE-9B上增益最大:38.16 BC%,而无RL为30.19,人工设计的RL基线为33.77。组件的分析进一步表明:保留的策略在不同领域发生分化;进化的工具拒绝了无效的高分分支;保留的技能改变了后续搜索——这提供了超越纯分数驱动迭代的过程级证据。我们的贡献有三点:(i) 我们将自主模型训练表述为跨版本的教练改进,其中适应目标既包括模型配方,也包括解读结果的决策基础设施;(ii) 我们提出了EvoTrainer,一种双进化框架,通过信号诊断、工具修订、持久记忆和可复用技能,联合发展策略版本和训练侧诊断工具;(iii) 我们在数学、编程和SWE任务上评估了EvoTrainer,表明它匹配或超过了人工设计的RL基准,并提供了超越分数主导迭代的过程级证据。
## 2 相关工作
### 2.1 自主研究与自进化实验
近期工作自动化了科学发现和模型开发的越来越多部分。AutoResearch 在GPT预训练基准上展示了一种提出-训练-评估循环,而 Bilevel Autoresearch 则对内部研究循环进行元优化(Karpathy, 2026 (https://arxiv.org/html/2606.03108#bib.bib15); Qu and Lu, 2026 (https://arxiv.org/html/2606.03108#bib.bib24))。专用智能体框架将训练配方优化转化为带有失败感知反馈的可审计轨迹(Ning et al., 2026 (https://arxiv.org/html/2606.03108#bib.bib22))。AI Scientist 系列将其扩展到端到端的科学发现(Lu et al., 2024 (https://arxiv.org/html/2606.03108#bib.bib21); Yamada et al., 2025 (https://arxiv.org/html/2606.03108#bib.bib31))。GEAR 引入了对智能体代码智能体的种群式搜索(Jeddi et al., 2026 (https://arxiv.org/html/2606.03108#bib.bib14))。另一个相关的自改进系统系列通过经验反馈进化代码、算法或训练课程(Zhang et al., 2025 (https://arxiv.org/html/2606.03108#bib.bib35); Novikov et al., 2025 (https://arxiv.org/html/2606.03108#bib.bib23); Huang et al., 2025 (https://arxiv.org/html/2606.03108#bib.bib11); Yu et al., 2026 (https://arxiv.org/html/2606.03108#bib.bib33); Tao et al., 2024 (https://arxiv.org/html/2606.03108#bib.bib27))。EvoTrainer 将这条线扩展到智能体LLM RL训练,其中教练还必须进化训练侧诊断工具,以解读轨迹级证据并跨版本引导干预。
### 2.2 面向LLM系统的工具与基础设施优化
系统性能依赖于模型周围的基础设施,而不仅仅是模型权重。Meta-Harness 搜索工具代码,并展示了自动发现的任务侧工具可以超越手工设计的方案(Lee et al., 2026 (https://arxiv.org/html/2606.03108#bib.bib16))。AHE 通过可观测性驱动的轨迹分析进化编程智能体工具(Lin et al., 2026 (https://arxiv.org/html/2606.03108#bib.bib18));TDScaling 使用多样性敏感的诊断来引导代码智能体的轨迹合成(Chen et al., 2026 (https://arxiv.org/html/2606.03108#bib.bib5))。这些工作针对的是LLM在推理时的脚手架,而非训练过程本身。EvoTrainer 在另一个层上操作:一种训练侧诊断工具,它累积指标、分析器、回测、检索到的证据和可复用技能,以在RL训练期间解读策略版本的结果。它针对的信号子层——奖励分布、组方差、行为轨迹、死组比率以及跨版本干预证据——并非推理侧工具工作的主要关注点。如果要将那些系统适配过来,需要围绕训练时的RL工件重建其搜索和评估逻辑。
### 2.3 面向可验证与智能体训练的任务自适应RL设计
近期面向语言模型的RL方法引入了专门机制:GRPO中的组相对更新(Shao et al., 2024 (https://arxiv.org/html/2606.03108#bib.bib26))、DAPO中的Clip-Higher和动态采样(Yu et al., 2025 (https://arxiv.org/html/2606.03108#bib.bib32)),以及GSPO中的序列级优化(Zheng et al., 2025 (https://arxiv.org/html/2606.03108#bib.bib36))。可验证奖励训练方面的互补工作记录了优化偏差、多样性感知的奖励设计、自适应引导和可验证环境构建(Liu et al., 2025a (https://arxiv.org/html/2606.03108#bib.bib19); Chen et al., 2025b (https://arxiv.org/html/2606.03108#bib.bib7); Liu et al., 2025b (https://arxiv.org/html/2606.03108#bib.bib20); Zeng et al., 2025 (https://arxiv.org/html/2606.03108#bib.bib34); Huang et al., 2026 (https://arxiv.org/html/2606.03108#bib.bib12)),表明RL配方对任务结构、奖励粒度、数据体制和模型规模高度敏感。这种敏感性在智能体RL中更为突出:RAGEN 识别出回音陷阱并激发了轨迹级稳定化(Wang et al., 2025 (https://arxiv.org/html/2606.03108#bib.bib29));RAGEN-2 提出了信噪比感知的方差过滤(Wang et al., 2026 (https://arxiv.org/html/2606.03108#bib.bib28))。长周期和工具使用智能体的研究记录了其对奖励塑造和环境稳定性的强烈敏感性(Chen et al., 2025a (https://arxiv.org/html/2606.03108#bib.bib6); Wu et al., 2026 (https://arxiv.org/html/2606.03108#bib.bib30))。EvoTrainer 通过让教练诊断特定版本的失败、检索或修订候选机制、并仅保留得到跨版本证据支持的干预,来处理这一适应层。
## 3 EvoTrainer: LLM策略与训练工具的协同进化
参照图注
图2: EvoTrainer 概览。上层循环通过受控探索、训练、证据收集和干预规划进化策略版本;中间循环进化训练侧诊断工具;底层存储持久记忆和可复用技能。训练核心面板展示了SWE实例化。
### 3.1 版本化自主训练
一个自主教练必须做的不仅仅是执行训练任务:给定一个已完成的版本,它必须确定结果意味着什么,哪个干预是原因,出现了什么失败模式,以及接下来应该测试哪个方向。因此,我们将自主训练形式化为一个序列的基于证据的版本转换,其中策略版本和训练侧诊断工具共同进化。设v0, v1, ..., vn表示进化的策略版本。每个版本vi产生工件Ai = {metricsi, rollouts_i, configsi, logsi, diffs_i},这些工件由当前训练工具hi进行解读。我们将一个已完成的训练状态总结为Ti = (vi, hi, Ai, di, Δi, ωi),其中di是当前版本的诊断,Δi是提议的干预,ωi是观察到的结果。结果可能表明改进、退化、混合证据或证据不足。这种形式化使得版本转换成为自主改进的单位:一个分数提升的版本可能仍然暴露出脆弱的奖励设计,一个退化的分支可能揭示有害的干预,而一个混合结果可能表明一个瓶颈已解决而另一个变得可见。EvoTrainer 保留了这些区别,而不是将每次运行简化为一个二元保留/拒绝事件。这两个层随后分别发展:策略自进化(第3.2节 (https://arxiv.org/html/2606.03108#S3.SS2))和训练侧工具进化(第3.3节 (https://arxiv.org/html/2606.03108#S3.SS3))。
### 3.2 通过版本化探索实现策略自进化
教练智能体首先构建一个可运行的训练版本,包含可执行的启动脚本、奖励连接、配置文件以及评估钩子;后续版本...相似文章
CoEvolve:通过智能体-数据互进化训练LLM智能体
CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。
进化策略梯度
OpenAI 推出进化策略梯度(EPG),这是一种元学习方法,通过进化而非直接学习策略来学习损失函数,使强化学习代理能够通过利用类似人类技能迁移的先验经验,更好地跨任务泛化。
PACEvolve++:提升进化搜索代理的测试时学习能力
本文介绍了 PACEvolve++,这是一种强化学习框架,通过将假设生成与执行解耦,提高了进化搜索代理在测试时的策略适应能力。
通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化
# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,
PopuLoRA: 用于推理自我博弈的LLM种群协同进化
PopuLoRA 提出了一种基于种群的非对称自我博弈框架,用于 LLM 的 RLVR 后训练。在该框架中,教师和学生 LoRA 适配器协同进化,生成日益复杂的问题,从而克服了单智能体自我博弈的自我校准限制。