EVOM: 智能体元进化中的Actor-Critic架构强化学习方法
摘要
介绍了EVOM,一种基于LLM的设计智能体的智能体元进化框架,用于自动发现高性能的Actor-Critic架构,在连续控制任务上优于手动基线方法和先前方法。
查看缓存全文
缓存时间: 2026/06/26 05:18
# EVOM:用于强化学习的演员-评论家架构智能体元进化框架
来源:https://arxiv.org/html/2606.26327
张博云,王超,吴凯 西安电子科技大学 23009300248@stu\.xidian\.edu\.cn, xiaofengxd@126\.com, kwu@xidian\.edu\.cn
###### 摘要
在演员-评论家强化学习中,网络架构通常由人工设计。自动化此设计颇具挑战,因为每个候选架构必须在评估前进行训练,且设计空间是开放式的。为应对这些挑战,我们提出 EVOM,一个用于发现高性能演员-评论家架构的智能体元进化框架。我们将架构搜索建模为双层优化:内层通过低保真度的近端策略优化(PPO)训练权重,外层通过迭代优化架构程序驱动元进化。关键在于,该外层由一个基于大语言模型的设计智能体驱动,该智能体纯粹作为架构设计师运作,完全与策略执行和环境控制解耦。实验表明,EVOM 优于人工设计的基线、大语言模型引导的随机搜索以及最先进的大语言模型引导的程序化策略搜索方法 MLES,在 Ant-v4 和 HalfCheetah-v4 任务上展现出更优性能。消融实验验证了元进化循环和大语言模型设计智能体对于最终性能都是必不可少的。
## 1 引言
深度学习(LeCun 等人,2015 (https://arxiv.org/html/2606.26327#bib.bib1))的成功不仅源于算法进步,也离不开网络架构的创新。在监督学习中,这一观察促使了对神经架构搜索(NAS)(Elsken 等人,2019 (https://arxiv.org/html/2606.26327#bib.bib13);Liu 等人,2021 (https://arxiv.org/html/2606.26327#bib.bib2))的广泛研究,产生了在视觉和语言基准上与人工设计架构相媲美甚至更优的架构。然而,在强化学习(RL)(Sutton 等人,1998 (https://arxiv.org/html/2606.26327#bib.bib3);Li 等人,2024 (https://arxiv.org/html/2606.26327#bib.bib4))中,自动化架构设计受到的关注较少。在演员-评论家方法(如近端策略优化 PPO(Schulman 等人,2017 (https://arxiv.org/html/2606.26327#bib.bib5)))中,用于实例化策略和价值函数的网络通常被视为继承自先前工作的固定实现选择。这种惯例可能忽视了一个重要的设计因素:演员-评论家架构会影响学习稳定性和最终性能,这促使我们探索针对演员-评论家系统的架构自动化发现方法。
参见图说明 图 1:EVOM 作为双层优化概览:外层进化架构,内层训练权重。演员-评论家方法的自动化架构发现面临两大挑战。首先,每个候选架构在评估前必须经过训练,这使得在众多候选者之间进行全预算比较的计算成本高昂。其次,演员-评论家设计是开放式的:策略头、价值头、共享主干、归一化层、激活函数以及其他模块可以以多种方式组合,不存在规范的固定拓扑搜索空间。我们提出 EVOM,一个联合应对这些挑战的智能体元进化框架。一个低保真度的内层评估循环提供了计算上可行的适应度估计。同时,一个基于大语言模型的设计智能体以可执行程序的形式生成和精炼架构,减少了对人工预定义搜索空间的依赖。如图 1 (https://arxiv.org/html/2606.26327#S1.F1) 所示,EVOM 作为一个双层优化运作:外层进化一群架构程序,内层通过 PPO 在缩减预算下训练权重来评估每个候选者。
EVOM 也不同于近期基于大语言模型的策略搜索方法,如 MLES(Hu 等人,2026 (https://arxiv.org/html/2606.26327#bib.bib20)),后者合成可执行的控制器程序,直接将观测映射到动作。相反,EVOM 生成可训练的演员-评论家架构:生成的程序指定网络结构,而 PPO 通过与环境的交互学习权重。这使得大语言模型成为元进化循环中一个可复用的设计算子,而非取代强化学习。我们的贡献如下:
- • 我们识别出自动化演员-评论家架构设计中的两个挑战,即评估成本和开放式设计空间,并制定了一个联合应对它们的双层元进化框架。
- • 我们用一个低保真度 PPO 评估器实例化架构搜索,该评估器为进化过程中比较候选架构提供了实用的适应度信号。
- • 我们引入一个基于大语言模型的设计智能体,作为进化循环中用于初始化、变异和交叉的程序级架构算子。
- • 在 Ant-v4 和 HalfCheetah-v4 上的实验表明,EVOM 改进了人工设计的基线、大语言模型引导的随机搜索以及 MLES 风格的程序化策略搜索基线,消融实验表明了进化继承和大语言模型引导设计的贡献。
## 2 相关工作
EVOM 与三个领域相关:NAS(Elsken 等人,2019 (https://arxiv.org/html/2606.26327#bib.bib13))和神经进化(Miikkulainen,2025 (https://arxiv.org/html/2606.26327#bib.bib15))、大语言模型辅助的自动化算法设计(Ma 等人,2026 (https://arxiv.org/html/2606.26327#bib.bib16);Romera-Paredes 等人,2024 (https://arxiv.org/html/2606.26327#bib.bib17);Liu 等人,2026 (https://arxiv.org/html/2606.26327#bib.bib19))以及演员-评论家强化学习(Sutton 等人,1998 (https://arxiv.org/html/2606.26327#bib.bib3);Grondman 等人,2012 (https://arxiv.org/html/2606.26327#bib.bib18))。先前的工作研究了如何自动化架构设计、进化可执行结构以及使用大语言模型生成算法或程序。相比之下,EVOM 专注于大语言模型引导的演员-评论家架构进化,其中生成的程序定义网络结构,而 PPO 仍然负责策略学习。
NAS 和神经进化。NAS 通过控制器策略、进化搜索和可微分松弛来自动化网络设计(Zoph 和 Le,2017 (https://arxiv.org/html/2606.26327#bib.bib11);Real 等人,2019 (https://arxiv.org/html/2606.26327#bib.bib12);Elsken 等人,2019 (https://arxiv.org/html/2606.26327#bib.bib13))。进化计算和遗传编程为可执行结构上的繁殖、评估和选择提供了一个更广泛的框架(Koza,1992 (https://arxiv.org/html/2606.26327#bib.bib21);Bäck,1996 (https://arxiv.org/html/2606.26327#bib.bib22))。神经进化将相关原理应用于策略、权重和拓扑(Stanley 和 Miikkulainen,2002 (https://arxiv.org/html/2606.26327#bib.bib14);Salimans 等人,2017 (https://arxiv.org/html/2606.26327#bib.bib37);Such 等人,2017 (https://arxiv.org/html/2606.26327#bib.bib38);Gaier 和 Ha,2019 (https://arxiv.org/html/2606.26327#bib.bib39))。EVOM 遵循这种进化观点,但将大语言模型引导的程序生成应用于可训练演员-评论家架构的设计。
大语言模型辅助的自动化算法设计。大语言模型可以生成程序、利用反馈并支持迭代设计循环(Brown 等人,2020 (https://arxiv.org/html/2606.26327#bib.bib32);Ouyang 等人,2022 (https://arxiv.org/html/2606.26327#bib.bib33);OpenAI,2023 (https://arxiv.org/html/2606.26327#bib.bib23);Chen 等人,2021 (https://arxiv.org/html/2606.26327#bib.bib34);Yao 等人,2023 (https://arxiv.org/html/2606.26327#bib.bib25);Shinn 等人,2023 (https://arxiv.org/html/2606.26327#bib.bib26);Wang 等人,2024 (https://arxiv.org/html/2606.26327#bib.bib27),2025 (https://arxiv.org/html/2606.26327#bib.bib9))。最近的研究将大语言模型用于自动化算法设计和程序搜索,包括数学发现、启发式设计、自我精炼、黑盒优化和奖励设计(Romera-Paredes 等人,2024 (https://arxiv.org/html/2606.26327#bib.bib17);Liu 等人,2024 (https://arxiv.org/html/2606.26327#bib.bib28);Madaan 等人,2023 (https://arxiv.org/html/2606.26327#bib.bib35);Zhang 等人,2023 (https://arxiv.org/html/2606.26327#bib.bib36);Ma 等人,2024 (https://arxiv.org/html/2606.26327#bib.bib29);Wang 等人,2026a (https://arxiv.org/html/2606.26327#bib.bib8),b (https://arxiv.org/html/2606.26327#bib.bib7))。与我们设置密切相关的是,MLES 使用多模态反馈进化可解释的程序化控制器(Hu 等人,2026 (https://arxiv.org/html/2606.26327#bib.bib20))。相比之下,EVOM 使用大语言模型设计智能体生成可训练的演员-评论家架构,将策略和价值参数留给 PPO 通过与环境的交互来学习。
演员-评论家强化学习。演员-评论家方法(包括 PPO(Schulman 等人,2017 (https://arxiv.org/html/2606.26327#bib.bib5)))学习独立的策略和价值函数,并广泛用于连续控制任务。实践中,这些函数由神经网络实例化,其架构会影响优化稳定性、探索行为和优势估计。我们使用来自 Stable-Baselines3(Raffin 等人,2021 (https://arxiv.org/html/2606.26327#bib.bib6))的 PPO,在 MuJoCo 任务(Brockman 等人,2016 (https://arxiv.org/html/2606.26327#bib.bib24);Towers 等人,2025 (https://arxiv.org/html/2606.26327#bib.bib10))上作为评估候选架构的内层学习器。由于 EVOM 输出显式程序,因此可以检查、重现和重用生成的架构,而不是将其视为不透明的策略。
## 3 问题形式化
我们考虑情节式连续控制环境,观测为 $o_t \in \mathbb{R}^d$,动作为 $a_t \in \mathbb{R}^m$,奖励为 $r_t$,时域长度为 $H$。令 $p \in \mathcal{A}$ 表示来自开放式架构空间 $\mathcal{A}$ 的一个演员-评论家架构程序。$\mathcal{A}$ 并非假设固定拓扑或一组封闭的手动指定选择,而是由一个可执行接口和有效性约束来定义。给定 $p$,演员和评论家实例化为:
$$
\mu_\theta(o) = \pi_\theta(o; p), \quad v_\phi(o) = V_\phi(o; p) \qquad (1)
$$
其中 $\mu_\theta(o)$ 是连续动作均值,$v_\phi(o)$ 是标量价值估计,$(\theta, \phi)$ 是可训练参数。因此,架构搜索关注 $p$ 的外部选择,而 PPO 对给定架构进行 $(\theta, \phi)$ 的内层优化。
给定架构 $p$ 和训练种子 $s$,令 $U_B(p, s)$ 表示预算为 $B$ 的 PPO 训练。$U_B(p, s)$ 的结果是一个训练好的演员-评论家策略,其确定性评估回报记为:
$$
J(U_B(p, s)) = \mathbb{E}\left[ \sum_{t=0}^{H-1} r_t \mid U_B(p, s) \right] \qquad (2)
$$
令 $\mathcal{A}_{\mathrm{valid}} \subseteq \mathcal{A}$ 表示能够编译、满足所需演员-评论家接口、产生预期形状的张量并返回有限输出的程序子集。全预算架构搜索目标是:
$$
\max_{p \in \mathcal{A}_{\mathrm{valid}}} \; \mathbb{E}_s \left[ J(U_{B_{\mathrm{full}}}(p, s)) \right] \qquad (3)
$$
其中 $B_{\mathrm{full}}$ 表示最终训练预算。直接优化此目标代价高昂,因为每个架构评估都需要一次强化学习训练运行。因此,在搜索过程中,我们使用较低的训练预算 $B_{\mathrm{low}} \ll B_{\mathrm{full}}$ 来获得代理适应度信号。对于使用种子 $s$ 训练的架构 $p$,低保真度估计为:
$$
\hat{J}_{\mathrm{low}}(p, s) = \frac{1}{K} \sum_{k=1}^K J_k\left( U_{B_{\mathrm{low}}}(p, s) \right) \qquad (4)
$$
其中 $J_k$ 表示第 $k$ 次确定性评估情节的回报。这种形式化将架构选择与参数学习分离:外层搜索架构程序,而 PPO 为每个架构学习策略和价值参数。
## 4 EVOM
### 4.1 概述
图 1 (https://arxiv.org/html/2606.26327#S1.F1) 总结了 EVOM 的工作流程。在问题设定之后,大语言模型设计智能体首先进行种群初始化,产生初始种群 $P^{(0)} = \{ p_1^{(0)}, \ldots, p_N^{(0)} \}$,其中 $N$ 是种群大小。然后进化循环运行 $G$ 代,重复繁殖、评估、排序和选择。在繁殖中,变异(编辑架构)和交叉(融合架构)生成子代种群 $P' = \{ p'_1, \ldots, p'_N \}$。在评估中,内层 PPO 评估器(低保真度)在低预算设置下训练每个子代,并使用 $K$ 次确定性评估情节估计其回报。然后排序根据评估信号对当前精英种群和子代种群的并集进行排序。选择保留前 $N$ 个候选者作为下一个精英种群 $P^{(t+1)}$。进化之后,最终评估使用完整 PPO 训练重新训练选定的精英,输出阶段返回一个可部署的精英架构。算法 1 (https://arxiv.org/html/2606.26327#alg1) 描述了工作流程。一个关键的设计选择是,大语言模型设计智能体不观察梯度、训练后的参数值或特权模拟器状态。它接收*环境描述*、*固定状态-动作*信息、*输出要求*和选定的架构设计,并返回可执行的演员-评论家架构程序。大语言模型为外层循环提出架构程序,而 PPO 训练和环境交互仍在内层循环中进行。
算法 1 EVOM
0:环境,观测维度 $d$,动作维度 $m$,种群大小 $N$,世代数 $G$,低预算 $B_{\mathrm{low}}$,全预算 $B_{\mathrm{full}}$。
0:最佳演员-评论家架构和最终回报 $r_{\mathrm{final}}$。
1:使用大语言模型设计智能体进行种群初始化,得到 $P^{(0)} = \{ p_1^{(0)}, \ldots, p_N^{(0)} \}$;
2:使用内层 PPO 评估器在预算 $B_{\mathrm{low}}$ 下评估每个架构 $p_i^{(0)}$;
3:对于 $t = 0, \ldots, G-1$ 执行
4:使用大语言模型设计智能体,通过对 $P^{(t)}$ 进行变异或交叉生成子代 $P' = \{ p'_1, \ldots, p'_N \}$;
5:对于每个架构 $p'_i \in P'$ 执行
6:使用 PPO 在预算 $B_{\mathrm{low}}$ 下训练 $p'_i$ 定义的策略网络和价值网络;
7:通过 $K$ 次确定性评估情节估计 $p'_i$ 的评估信号 $r_i$;
8:结束循环
9:根据评估信号对 $P^{(t)} \cup P'$ 中的候选者进行排序;
10:选择前 $N$ 个候选者作为下一个精英种群 $P^{(t+1)}$;
11:结束循环
12:在预算 $B_{\mathrm{full}}$ 下重新训练 $P^{(G)}$ 中的最佳架构,评估并返回 $r_{\mathrm{final}}$;
### 4.2 大语言模型引导的进化循环相似文章
MetaEvo: 一种用于经验驱动型智能体持续进化的元优化框架
MetaEvo 提出了一种两阶段框架,用于基于LLM的智能体的持续进化,利用基于偏好的优化来增强原则抽象和用于经验重用的模块化架构,在推理基准测试上优于强基线。
EvoTrainer:面向自主智能体强化学习的LLM策略与训练框架协同进化
EvoTrainer提出了一种自主训练框架,通过经验反馈协同进化LLM策略与训练框架,在数学推理、代码生成以及长期软件工程任务上超越了人工设计的强化学习基线。
EvoMaster:构建可进化大规模自主科学智能体的基础框架
# 论文页面 - EvoMaster:构建可进化大规模自主科学智能体的基础框架 来源:[https://huggingface.co/papers/2604.17406](https://huggingface.co/papers/2604.17406) 作者:,,,,,,,,,,,,,,,,,,,,, ## 摘要 EvoMaster 是一个可扩展、自我进化的智能体框架,专为大规模科学发现设计,支持在实验周期中迭代优化假设并持续积累知识。大语言模型与智能体的融合正在催生“智能体科学”新时代。
EvoArena:追踪记忆演化以实现动态环境中鲁棒的LLM智能体
EvoArena引入了一个基准测试,用于评估LLM智能体在动态环境中的表现,该环境在终端、软件和社交领域具有渐进式更新;同时EvoMem提出了一种基于补丁的记忆范式,记录结构化的演化;实验表明,当前智能体在EvoArena上仅达到39.6%的准确率,而EvoMem在该基准测试上平均提升1.5%,并在GAIA和LoCoMo上也有所改进。
@dair_ai:// 驾驭智能体进化 // 如果你运行迭代式智能体搜索循环,请注意这一点。(收藏它)一……
AEvo 是一个元编辑框架,通过将提议和评估分为两个角色,并利用累积的记忆指导未来搜索,改进了迭代式智能体搜索。它在开放式优化任务上相比基线实现了26%的相对提升,并取得了最先进的结果。