APEX: Adaptive Principle EXtraction — 面向生产级AI智能体的三层自进化框架

arXiv cs.AI 论文

摘要

APEX 提出了一个面向生产级AI智能体的三层自进化框架,同时优化了控制层(harness)、行为原则和工作流拓扑。在生产级智能体上的实验显示,健康评分和工作流质量显著提升,且仅需极少的LLM调用。

arXiv:2606.15363v1 公告类型:新 摘要:AI智能体的自我改进已成为一个关键研究前沿:系统根据累积的运行经验修改自己的提示、工作流和决策规则。最先进的 Self-Harness 框架 [1] 通过挖掘失败集群并修补智能体控制层(harness),在 Terminal-Bench-2.0 上实现了 14–21% 的提升。然而,Self-Harness 只优化了一个维度——提示控制层——而行为原则和工作流拓扑保持不变。我们提出了 APEX(自适应原则提取,Adaptive Principle EXtraction),一个三层协同进化框架,同时进化:(L1) 通过失败模式修补控制层,(L2) 通过成功轨迹蒸馏 [2] 进化行为原则,(L3) 通过基于结构适应性的选择 [6] 进化智能体工作流拓扑。我们在 Joe [13] 上实现了 APEX,这是一个基于 NVIDIA Nemotron 构建的生产级超级AI智能体,设计为面向 NVIDIA Agent Challenge 2026 的边缘AI智能体工厂,使用 18 天内收集的 114 条真实任务轨迹管理一个 15 节点的计算集群。APEX 在单次进化运行中达到了 0.570 的 APEX 健康评分(相比基线 0.300 提升 +90%),提炼出 6 条可重复使用的新原则,并选择了得分为 0.900(+20%)的研究优先工作流拓扑。我们的结果表明,多维协同进化显著优于单轴控制层优化,且成本仅为在本地 qwen2.5-coder:32b 实例上的 4 次 LLM 调用(约 270 秒)。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:45

# 自适应原则提取:一种面向生产环境AI Agent的三层自进化框架  
来源:https://arxiv.org/html/2606.15363  

陈雅川\* 赖天仁 胡祥伟  
Grace AI Technology  
[email protected] [email protected] [email protected]  
\*通讯作者:[email protected]  
(2026年6月13日 arXiv预印本)  

###### 摘要  

AI Agent的自我改进已成为关键研究前沿:系统根据累积的操作经验修改自身的提示词、工作流程和决策规则。最先进的Self-Harness框架\[1\]通过挖掘失败集群并修补Agent工具(harness),在Terminal-Bench-2.0上实现了14–21%的提升。然而,Self-Harness仅优化了一个维度——*提示词工具*——而行为原则和工作流拓扑保持不变。  
我们提出**Apex**(自适应原则提取),一个三层协同进化框架,同时进化:(L1)通过失败模式修补工具;(L2)通过成功轨迹蒸馏行为原则\[2\];(L3)通过基于结构适应性的选择优化Agent工作流拓扑\[6\]。  
我们在**Joe**\[13\]上实现Apex,这是一个基于NVIDIA Nemotron构建的生产级超级AI Agent,专为NVIDIA Agent Challenge 2026设计为*边缘AI Agent工厂*,使用114个真实任务轨迹(收集自18天)管理一个15节点计算集群。Apex在单次进化运行中达到了**APEX健康得分0.570**(相比基线0.300提升+90%),蒸馏出**6条新颖可复用的原则**,并选择了得分**0.900**(提升+20%)的研究优先工作流拓扑。我们的结果表明,多维协同进化大幅优于单轴工具优化,成本仅为本地qwen2.5-coder:32b实例上的4次LLM调用(约270秒)。  

## 1 引言  

部署在生产环境中的现代AI Agent面临一个根本性挑战:初始配置(系统提示、工作流结构、决策规则)会随着环境、用户需求和任务分布的变化而过时。传统应对方案需要缓慢且昂贵的手动提示工程周期,且脱离生产实际。自动化自我改进已成为一种有前景的解决方案。  
*Self-Harness*\[1\]聚类失败轨迹并提出工具补丁;*EvolveR*\[2\]将成功执行轨迹蒸馏为可复用的行为原则;*EvoAgentX*\[3\]应用类似梯度的文本优化,AFlow\[6\]通过DAG拓扑搜索改进Agent工作流;*Reflexion*\[9\]使Agent能够通过对先前轨迹的口头反思实现自我改进;*符号学习*\[11\]通过Agent流水线传播自然语言“梯度”。然而,每种方法都只针对*单一改进轴*,而使其他轴固定不变且未被利用。  
我们认为,生产级Agent需要**多轴协同进化**:工具、内化的行为原则和工作流结构必须共同进化。一个带有次优工作流的完美工具仍然会系统性失败;一个忽略了关键失败模式的完善原则集在分布偏移下会退化;一个没有行为规则指导的最优工作流拓扑会产生结构正确但上下文错误的决策。这三个轴处理的是**正交**的失败模式。  
本文介绍了**Apex**,一个统一的三层自进化框架,将所有三个轴作为单一编排流水线实现。我们的贡献如下:  
1. (1) **Apex框架**:一个三层协同进化流水线(L1:工具修补,L2:原则蒸馏,L3:工作流拓扑进化),运行在共享的生产轨迹池上,无需任何合成基准。  
2. (2) **APEX健康得分**:一个复合指标,用于衡量多维Agent进化进展,分别评估工具覆盖度、原则丰富度和结构化工作流质量。  
3. (3) **生产验证**:在真实世界轨迹(114个任务,18天,15节点集群)上对三轴Agent自我改进系统的首次评估,相比未调优基线提升+90%。  
4. (4) **开源发布**:以三个可组合的Python模块(joe_apex.py, joe_apex_distill.py, joe_apex_workflow.py)提供完整实现,可部署在任何带有轨迹数据库和本地Ollama实例的Agent上。  

## 2 相关工作  

#### 基于工具的自我改进。  
Ye等人\[1\]提出一个三步循环:*弱点挖掘*聚类轨迹失败;*工具提案*通过LLM生成新规则;*提案验证*运行迷你基准测试以接受或拒绝。在Terminal-Bench-2.0上实现14–21%的提升。  
*局限:* 仅作用于失败轨迹;忽略了成功行为模式。  

#### 基于轨迹的原则蒸馏。  
Li等人\[2\]提出从成功轨迹进行离线原则蒸馏,然后在推理时在线应用。关键见解:从成功中学习比单独修补失败具有更好的泛化能力。  
*局限:* 无工具修改;无工作流结构搜索。  

#### 工作流拓扑优化。  
Zhang等人\[6\]将工作流优化重新表述为代码级搜索问题,使用蒙特卡洛树搜索遍历LLM调用的DAG,相比最先进基线平均提升5.7%,使较小模型以4.55%的推理成本匹配GPT-4o。Wang等人\[3\]结合了TextGrad\[7\]提示优化、AFlow DAG拓扑搜索和MIPRO少样本选择,在GAIA/MBPP上实现+7%–20%的提升。  
*共同局限:* 都需要精心设计的基准测试;不利用每个任务的生产轨迹信号。最近的一项调查\[10\]将缺乏生产轨迹驱动的方法确定为一个关键开放问题,而Apex直接解决了这一问题。  

#### 口头强化与符号学习。  
Yao等人\[8\]提出了ReAct,将推理轨迹与动作调用交替进行。Shinn等人\[9\]通过Reflexion扩展了这一点,将口头自我反思存储在情景记忆中。Wang等人\[11\]通过Agent流水线传播自然语言梯度以实现自我进化。Apex的L1/L2层可以被视为一种离线、批量变体——从累积的轨迹中系统性地提取补丁和原则,而非单轮反思。  

#### 持续适应。  
Gao等人\[4\]提出了无需任务边界标注的连续LoRA微调。Anonymous\[12\]研究了无梯度更新的在线Agent适应。这些可以作为潜在的第四层(权重级进化)与Apex互补。  

**关键空白。**  
先前没有方法能同时从单个共享的生产轨迹池中进化工具(L1)、行为原则(L2)*和*工作流拓扑(L3)。Apex通过一个统一的3层流水线填补了这一空白,该流水线无需合成基准和外部API依赖。  

## 3 APEX框架  

### 3.1 架构概述  

Apex接收一个包含带时间戳的任务执行记录的轨迹数据库作为输入。每条记录包括任务描述、执行日志、经验教训、更改的文件以及可选的成果分数。从这个共享池出发,三条并行流水线同时运行:L1选择*失败*轨迹;L2选择高质量*成功*轨迹;L3使用独立于轨迹内容的结构化评分对工作流候选方案进行评估。它们的输出——工具补丁、行为原则和选定的拓扑——被聚合到一个更新的Agent配置中,部署在下一代中。  

轨迹池  
joe_learned_tasks.db · 114个任务 · 18天跨度  

L1 工具修补  
L2 原则蒸馏  
L3 拓扑进化  

3个补丁✓  
6条原则✓  
τ\* = 0.900✓  

APEX健康聚合  
H = 0.570  
相比基线提升+90%  

失败 成功 拓扑  
图1:APEX进化流水线。所有三层都从一个共享的生产轨迹池中提取数据。L1提取失败轨迹用于工具修补;L2选择高质量成功轨迹用于原则蒸馏;L3评估工作流拓扑候选项的结构适应性。  

### 3.2 第一层:工具审查(Self-Harness变体)  

第一层从轨迹池中识别系统性失败模式。任何在其“lesson”字段中包含关键字error、fail、wrong或mistake的任务记录都被标记为失败轨迹。排名前30的失败轨迹(按最近时间)被提交给本地LLM(通过Ollama运行的qwen2.5-coder:32b),提示词为:“识别出前3种系统性失败模式,包括根本原因和具体的禁止规则。”  
每个补丁存储在apex_harness中,并作为显式规则块注入到下一代的系统提示中。  

**L1结果。** 从114条轨迹中提取了3个工具补丁。失败模式:(i) 端口冲突 – openclaw-gateway在并发重启时发生端口碰撞;(ii) 前端稳定性 – CI测试覆盖率缺口导致静默回归;(iii) 危机检测延迟 – 指标轮询间隔太粗,无法满足告警SLA。  

### 3.3 第二层:原则蒸馏(受EvolveR启发)  

第二层使用多因子质量评分选择最高质量的成功轨迹:  
s(t) = 0.4·1[|lesson|>50] + 0.3·1[|actions|>30] + 0.2·1[files≠∅] + 0.1·1[source≠self] (1)  
排名前34的轨迹(第30百分位阈值)被提交给LLM:“提取6条使这些任务成功的可复用行为原则。”  
每条候选原则通过余弦重叠度与现有原则进行新颖性评分(重复项受惩罚)、特异性(长度作为可操作性的代理)和完整性。新颖性复合得分≥0.3的原则被接纳到apex_principles中。  

表1:第二层提取的原则。所有6条均为新颖(平均新颖性0.998)。  

**L2结果。** 6/6原则新颖(平均新颖性得分0.998)。所有原则都基于生产环境——从实际部署轨迹中推导得出,而非合成基准。  

### 3.4 第三层:工作流拓扑进化(受AFlow启发)  

第三层维护一个Agent工作流DAG的种群,该DAG定义在一组规范节点词汇表上:intake, research, plan, code, review, verify, dispatch, summarize。每个拓扑G按结构适应性评分:  
score(G) = 0.50 + 0.10·1[review∈G] + 0.10·1[verify∈G] + 0.05·1[research∈G] + 0.15·1[loop-back routing] + 0.05·1[parallel nodes] − 0.10·1[|G|>8] (2)  
变异算子:add_node(在plan前注入research节点)、add_routing(在失败的review上添加自纠正循环)、insert_verify(在code后添加验证阶段)。每代评分前2的拓扑各产生两个变异子代;经过3代,评估了10个不同的拓扑。  

表2:3代拓扑进化结果。  

**L3结果。** 最佳拓扑:research_first_v1(得分=0.900,相比baseline_v1的0.750提升+20%)。关键见解:research-before-code拓扑占优,与EvolveR的发现一致,即行动前的上下文收集减少了后续执行错误\[2\]。  

### 3.5 APEX算法  

算法3.5总结了完整的Apex进化周期。  

算法1:APEX进化周期  
**输入:** T: 轨迹数据库;M: LLM预言;P0: 初始拓扑种群  
**输出:** Δ: 工具补丁;Q: 新颖原则;τ\*: 最佳拓扑  

// 第一层:工具修补  
1 Tfail ← {t ∈ T: lesson(t) ∩ {error, fail, wrong, mistake} ≠ ∅}  
2 Δ ← M(“提取前3种失败模式及补丁规则”, top-30(Tfail))  
3 store(Δ → apex_harness)  

// 第二层:原则蒸馏  
4 for each t ∈ T: compute s(t) per Eq. (1)  
5 Qcand ← M(“提取6条可复用原则”, top-30%(T, s))  
6 for each q ∈ Qcand: nov(q) ← 1 − max_{q′} cos(q, q′)  
7 if nov(q) ≥ 0.3: store q → apex_principles  

// 第三层:拓扑进化(3代)  
8 P ← P0  
9 for gen = 1,2,3:  
10 score each G ∈ P per Eq. (2)  
11 P ← top-2(P) ∪ mutate(top-2(P))  
12 τ\* ← argmax_{G∈P} score(G)  

// 健康得分聚合  
13 H ← min(0.30, |Δ|·0.10) + min(0.40, |Q|·0.07) + score(τ\*)·0.30  
14 return Δ, Q, τ\*, H  

## 4 实验评估  

### 4.1 实验设置  

我们在**Joe**\[13\]上部署Apex,这是一个基于NVIDIA Nemotron构建的生产级超级AI Agent,为NVIDIA Agent Challenge 2026\[13\]开发为*边缘AI Agent工厂*。Joe运行在Ubuntu 22.04上,自主管理一个15节点计算集群(192.168.1.x子网)。Joe的轨迹数据库包含114个真实世界任务执行记录,收集于2026-05-26至2026-06-13(18天),涵盖五个任务领域:AI/ML部署(32%)、系统管理(28%)、前端/Web开发(22%)、网络(12%)和安全加固(6%)。所有LLM调用均使用通过Ollama运行的qwen2.5-coder:32b,无外部API依赖,确保数据完全隐私和零边际推理成本。  

### 4.2 APEX健康得分公式  

我们将APEX健康得分H定义为每层贡献的加权复合值:  
H = min(0.30, |Δ|×0.10) (L1:工具覆盖度) + min(0.40, |Q|×0.07) (L2:原则丰富度) + score(τ\*)×0.30 (L3:工作流质量)

相似文章

EvoMaster:构建可进化大规模自主科学智能体的基础框架

Hugging Face Daily Papers

# 论文页面 - EvoMaster:构建可进化大规模自主科学智能体的基础框架 来源:[https://huggingface.co/papers/2604.17406](https://huggingface.co/papers/2604.17406) 作者:,,,,,,,,,,,,,,,,,,,,, ## 摘要 EvoMaster 是一个可扩展、自我进化的智能体框架,专为大规模科学发现设计,支持在实验周期中迭代优化假设并持续积累知识。大语言模型与智能体的融合正在催生“智能体科学”新时代。

@qinzytech: https://x.com/qinzytech/status/2066585405479371092

X AI KOLs Timeline

对构建自我进化AI代理的两种方法的技术分析:基于模型的方法(通过像SSMs或具有快速权重更新的transformer等架构,以及训练方法)和基于工具的方法(通过内存或能够自我重写的元工具)。作者为不同受众提供了实用建议。

@Apodex_AI: 深入阅读博客:https://apodex.com/blog/apodex-1.0 技术报告:http://apodex.com/pdf/20260608 GitHub:https://github.com…

X AI KOLs Following

ApodexAI 发布了 Apodex-1.0,这是一个深度研究模型,作为使用工具的 ReAct 代理运行。其重型模式 Apodex-1.0-H 采用异步代理团队,最多包含 150 个子代理,在深度研究基准测试(包括 BrowseComp、DeepSearchQA、HLE 和 FrontierScience)上取得了新的最先进结果,超越了 GPT-5.5-pro 和 Claude-Opus-4.8 等模型。