CoEvolve:通过智能体-数据互进化训练LLM智能体

arXiv cs.CL 论文

摘要

CoEvolve提出了一个智能体-数据互进化框架,通过闭环、交互驱动的学习来训练LLM智能体,同时适配智能体和其训练数据分布。该方法从轨迹回滚中提取反馈信号以指导基于LLM的任务合成,在AppWorld和BFCL基准上的多个Qwen模型中展示了显著的改进(绝对收益15-19%)。

arXiv:2604.15840v1 公告类型:新论文 摘要:对LLM智能体的强化学习通常在静态数据分布上进行,这无法适应智能体不断演化的行为,导致对复杂环境交互的覆盖不足。为了解决这些挑战,我们提出了CoEvolve,一个智能体-数据互进化框架,使LLM智能体能够通过闭环、交互驱动的训练来改进。具体来说,CoEvolve从轨迹回滚中提取遗忘和不确定性等反馈信号,以识别容易失败的交互模式,并利用这些信号指导基于LLM的任务合成。合成的任务通过环境交互进行验证,用于更新数据分布,实现智能体及其数据的联合适配。在AppWorld和BFCL上对Qwen2.5-7B、Qwen3-4B和Qwen3-30B-A3B的大量实验表明,与强基线模型相比有一致和显著的改进,分别产生19.43%、15.58%和18.14%的绝对收益。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:29

# CoEvolve: 通过代理-数据互进化训练LLM代理
来源: https://arxiv.org/html/2604.15840

###### 摘要

对LLM代理的强化学习通常在静态数据分布上进行,无法适应代理不断演变的行为,导致复杂环境交互的覆盖范围不足。为了解决这些挑战,我们提出了CoEvolve,一个代理-数据互进化框架,使LLM代理能够通过闭环、交互驱动的训练不断改进。具体来说,CoEvolve从轨迹回滚中提取反馈信号(如遗忘和不确定性),以识别容易失败的交互模式,并利用这些信号指导基于LLM的任务合成。合成的任务通过环境交互进行验证,并用于更新数据分布,实现代理及其数据的联合适应。在AppWorld和BFCL上对Qwen2.5-7B、Qwen3-4B和Qwen3-30B-A3B的广泛实验表明,相比强基线模型有一致且显著的改进,分别获得19.43%、15.58%和18.14%的绝对增益。

CoEvolve: 通过代理-数据互进化训练LLM代理

Shidong Yang*、Ziyu Ma*、Tongwen Huang*、Yiming Hu、Yong Wang†、Xiangxiang ChuAMAP、Alibaba Grouphttps://github.com/AMAP-ML/CoEvolve

11脚注: 等同贡献。22脚注: 项目主导和通讯作者。

## 1 引言

大语言模型(LLM)的快速发展Liu等人(2024);Qwen(2025);Gou等人(2025)推动了基于LLM的代理的发展,这些代理已广泛应用于网络信息检索、软件工程、网页导航和个人助手等场景Jin等人(2024);Ding等人(2025);Trivedi等人(2024);Ma等人(2026, 2024)。强化学习(RL)Guo等人(2025);Sun等人(2024);Ji等人(2025);Chu等人(2025)已成为训练这些具有复杂交互能力的代理的主要方法,为在开放环境中获取自适应行为提供了通用解决方案。

![](https://arxiv.org/html/2604.15840#S1.F1)

图1: (a) 专家监督。代理从人类收集的专家轨迹中学习,产生高数据收集成本和有限的泛化能力。(b) 静态合成。LLM以离线开环方式生成合成数据,产生静态且非自适应的训练集。(c) 代理-数据共进化。代理从通过反馈驱动交互演变的任务中学习,实现无需人类监督的自适应训练。

然而,当前的代理RL训练方法Li等人(2025);Mai等人(2025b);Lin等人(2025)严重依赖于人类编写的演示,其中专家手动与环境交互以构造轨迹数据集。这些策划的轨迹随后用于训练代理的策略,如图1(a)所示。虽然在简单任务上有效,但这种对手动策划数据的依赖引入了几个关键限制:(1) 在真实环境中收集交互数据成本极高,单个轨迹通常需要数分钟或更长的人类专家努力。鉴于专家时间的有限可用性,对环境的广泛探索变得困难。(2) 更根本的是,这些专家演示代表了交互模式的静态快照,无法覆盖真实场景中发现的长尾变化Wang等人(2025c)。因此,在此类数据上训练的代理难以泛化到观察分布之外。例如,如果按钮标签从"Book Now"变为"Reserve Now",网页导航代理可能完全失败Gür等人(2023)。

数据不足和静态的挑战引发了人们对合成数据生成的浓厚兴趣Zhai等人(2025);Mai等人(2025a);Ding等人(2024);Ye等人(2024)。典型的流程如图1(b)所示,用环境描述和任务规范提示大语言模型(LLM)来探索环境。通过利用其世界知识和推理能力,LLM生成合成轨迹,随后用于训练代理。虽然合成数据减少了对人类注释的依赖,但它通常通过随机探索生成,仅由LLM的世界知识指导,不接收来自代理实际性能或交互信号的任何反馈。因此,环境探索仍然浅显且不完整,无法充分覆盖多样的环境配置。此外,生成的数据仍然构成静态语料库,无法适应代理不断演变的能力,导致低效的训练,既不针对特定弱点也不支持持续改进。

为了解决这些问题,我们提出CoEvolve,一个代理-数据互进化框架,其中代理及其训练分布通过交互驱动的反馈联合演变,如图1(c)所示。我们的核心思想是使用反馈信号(如遗忘信号)来识别容易失败的交互模式,并相应地指导基于LLM的任务发现。与依赖静态数据集的先前方法不同,CoEvolve合成针对代理当前弱点的新任务,在环境中验证它们,并将其集成到训练中而无需人类监督。这个闭环允许代理重塑其学习分布(数据演变),同时持续克服其限制(代理演变)。

我们在两个代表性基准AppWorld和BFCL上评估CoEvolve,使用Qwen2.5-7B、Qwen3-4B和Qwen3-30B-A3B作为主干Qwen(2024b, 2025)。通过从训练时反馈持续合成新任务,CoEvolve分别改进了19.43%、15.58%和18.14%的平均性能,展示了跨模型和环境的强大可扩展性和泛化能力。我们的贡献可以总结如下:

- • 我们提出CoEvolve,一个无需人类监督的代理-数据互进化框架,在代理优化和数据分布更新之间交替进行。
- • 与之前基于无指导随机探索的合成数据生成不同,我们将反馈信号(例如遗忘信号)纳入基于LLM的环境探索。
- • CoEvolve在交互式基准(例如AppWorld)上相比基线模型(例如Qwen3-4B)产生了大幅收益,展示了其在复杂环境中的有效性。

## 2 相关工作

**大语言模型代理。** 近期工作表明,大语言模型(LLM)可以被实例化为自主代理,能够通过与环境的迭代交互进行长距离推理和行动。早期框架如ReAct(Yao等人, 2023)和Reflexion(Shinn等人, 2023)证明了将推理、工具使用和反馈耦合在一起能使LLM解决复杂的多步任务,而后来的系统进一步增强了规划和记忆以实现更持久的行为(Zhu等人, 2025)。尽管取得了这些进展,大多数现有的LLM代理通过对静态专家轨迹集合的模仿学习进行训练(Nakano等人, 2021;Wang等人, 2023),这从根本上限制了探索并将学习限制在预收集数据的覆盖范围内(Shinn等人, 2023)。相比之下,我们的工作偏离了这种静态范式,使代理能够在动态的自进化训练过程中学习,而无需依赖固定的专家演示。

![](https://arxiv.org/html/2604.15840#S2.F2)

图2: CoEvolve框架概览。代理使用GRPO进行训练,从回滚轨迹中提取反馈信号(第1阶段)。这些信号通过LLM指导信号条件的重新探索(第2阶段),并转化为经过验证的任务以演变训练集(第3阶段)。这个闭环过程使CoEvolve无需人类监督。

**代理训练的轨迹合成。** 为了减少对专家演示的依赖,近期工作探索了用于训练LLM代理的合成轨迹生成(Yu等人, 2025)。大多数先前的方法以*离线*或弱自适应方式生成轨迹,包括带反思或纠正的开环合成(Ye等人, 2024;Ding等人, 2024;Chen等人, 2025c, b),以及基于教程、脚本化探索、模拟器和自训练的大规模流程(Pahuja等人, 2025;Xu等人, 2024;Hoang等人, 2025;Yuan等人, 2025;Wang等人, 2025c;Song等人, 2024;Wang等人, 2025a)。最近的扩展引入了更自主的探索或结构化课程(Wang等人, 2025b;Ramrakhya等人, 2025;Zhang等人, 2025b;Xiao等人, 2025;Chen等人, 2025a;Zhang等人, 2025a),但轨迹生成仍然主要是*开环*的,与代理不断演变的失败模式松散耦合。相比之下,我们的方法通过使用环境反馈按需合成轨迹来闭合这个循环,实现了训练分布的持续适应。从概念上讲,CoEvolve也不同于最近的自改进或课程风格框架,这些框架为固定的查询池精化轨迹或围绕种子任务生成变体。我们的反馈用于将代理驱动回交互环境中以发现新的可执行查询和状态,因此数据演变不限于重写或过滤离线查询集。

## 3 方法

我们提出CoEvolve,一个无需人类监督的LLM代理训练的代理-数据共进化框架。在本节中,我们首先介绍对合成任务的代理训练以及从回滚轨迹中提取弱点信号(第3.1节)。然后,第3.2节详细说明这些信号如何被用作反馈来提示基于LLM的重新探索以发现新任务。第3.3节最后描述了发现的交互如何被抽象化和验证成可执行任务并合并到训练中。总体框架在图2中说明。

### 3.1 训练和信号提取

#### 合成任务上的训练

在训练迭代 $t$ 处,我们维护一个任务集 $\mathcal{D}_t$,包含可执行的合成任务。初始任务集 $\mathcal{D}_0$ 通过大语言模型与环境交互的无指导探索获得。随着训练进行,新合成和验证的任务(在后续阶段描述)被附加到 $\mathcal{D}_t$,允许任务分布与代理一起演变。

对于任务 $x \in \mathcal{D}_t$,我们从 $\pi_\theta(\cdot|x)$ 采样 $K$ 条轨迹 $\{\tau_k\}_{k=1}^K$,并为每条轨迹分配一个标量奖励 $R(\tau_k)$。代理使用群体相对策略优化(GRPO)Guo等人(2025)通过最大化以下目标进行优化:

$$\begin{split}
\mathcal{J}(\theta) = &\frac{1}{\sum_{k=1}^K|\tau_k|}\sum_{k=1}^K\sum_{t=1}^{|\tau_k|}\text{CLIP}(r_{k,t}(\theta),\hat{A}_k,\epsilon) \\
&\quad - \beta \cdot \mathbb{D}_{\text{KL}}\left[\pi_\theta \,\|\, \pi_{\text{ref}}\right],
\end{split} \tag{1}$$

其中 $r_{k,t}(\theta) = \frac{\pi_\theta(a_t^k|s_t^k)}{\pi_{\theta_{\text{old}}}(a_t^k|s_t^k)}$ 是重要性比率,$\text{CLIP}(r,A,\epsilon) = \min[r \cdot A, \text{clip}(r, 1-\epsilon, 1+\epsilon) \cdot A]$。这里 $\hat{A}_k$ 表示群体相对优势,$\pi_{\mathrm{ref}}$ 是固定参考策略,$\beta$ 权衡KL正则化项。

#### 信号提取

除了策略优化,训练期间生成的回滚轨迹包含代理性能不足的实例。为了识别这些弱点,我们分析这些轨迹并定义三种行为信号类型:遗忘信号、边界信号和罕见信号。

#### (1) 遗忘信号

遵循Toneva等人(2018),我们使用遗忘信号来检测代理在任务上曾经成功但在当前策略下现在失败的情况。令 $s_{\text{now}} \in [0,1]$ 表示当前轨迹 $\tau_{\text{now}}$ 的任务级分数,从环境的终端奖励或任务特定的评估信号计算。对于每个任务(或任务类型),我们维护最近分数的滑动窗口:

$$\mathcal{H}_{\text{recent}} = \{s_{t-W+1}, \ldots, s_t\},$$

其中 $W$ 是窗口大小。如果以下条件满足,则触发遗忘信号:

$$\exists\, s_i \in \mathcal{H}_{\text{recent}} \text{ such that } s_i \geq 0.5 \quad \text{and} \quad s_{\text{now}} < 0.5.$$

这个条件表示代理在任务上曾经成功但在当前策略下现在失败。当前的

相似文章

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

Hugging Face Daily Papers

# 论文页面 - 通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化 来源:[https://huggingface.co/papers/2604.18131](https://huggingface.co/papers/2604.18131) ## 摘要 具备内在元进化能力的智能体通过在没有外部监督的情况下自主生成的世界知识,在网页导航任务中展现出更优的性能。如今大多数智能体通过遵循人类定义的奖励和规则来``自我进化''。然而,

Role-Agent: 通过双角色演化自举LLM智能体

arXiv cs.AI

Role-Agent 引入了一种框架,其中单个LLM同时充当智能体和环境,通过世界智能体(World-In-Agent)和智能体世界(Agent-In-World)组件实现自举式共同演化。在多个基准测试中,相较于强基线,平均提升超过4%。

SEAL: 智能体与学习环境的协同共演化

arXiv cs.CL

SEAL提出了一个闭环框架,用于联合演化LLM智能体及其训练环境,利用诊断引导的标签对齐双方。仅用400个训练样本,它就在多轮工具使用任务上取得了显著提升,表现出更好的鲁棒性和分布外迁移能力。