PACE:自进化代理的任意有效验收测试

arXiv cs.AI 论文

摘要

PACE 为自进化代理引入了一种任意有效的提交门,它用序贯假设检验替代贪婪接受,控制错误提交概率,减少震荡,同时保持性能且方差更低。

arXiv:2606.08106v1 公告类型:新 摘要:自进化代理通过反复提出对其自身提示、技能或工作流程的修改,并保留那些在小型保留集上得分更高的修改来改进。几乎所有工作都集中在生成候选方案的提议器上;我们认为薄弱环节是接受器,即决定是否提交更改的规则。在同样的噪声开发评估上应用数百次后,普遍存在的“如果分数上升就保留”规则是一种不受控制的自适应多重测试:代理实际上在对自己进行 p-hacking,积累虚假提交,导致其震荡和漂移而非改进。 我们将提交重新定义为序贯假设检验,并提出了 PACE(配对任意有效提交评估),一种无需训练、任意有效的提交门。每个候选方案与当前方案在相同实例上进行对比,仅当通过赌注测试的 e 过程积累到决定性证据时才提交,提前停止以节省评估,并将每个候选方案的错误提交概率控制在用户设定的水平,即使在可选停止下也能保证(每决策保证)。 在 Qwen2.5 代理(0.5B-3B)于 GSM8K、SVAMP 和 ARC-Challenge 上进行提示级别自进化的实验中,贪婪接受在真实改进被隐藏在噪声提案中时提交了 30-42% 的虚假和 10-33% 的有害修改,而 PACE 只提交了真正的改进,几乎没有任何其他内容,在维持贪婪接受的保留集准确率的同时,方差显著降低,评估成本降低约 18%。当没有实际增益可用时,贪婪接受每次运行提交 13-21 个虚假自我修改(72-100% 虚假),并使最脆弱的代理退化 4.9 个点,而 PACE 则保持在基线水平。自进化的可靠性取决于接受器,而不仅仅是提议器。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:54

# PACE: 自进化智能体的随时有效验收测试
来源:https://arxiv.org/html/2606.08106

###### 摘要

自进化智能体通过反复提出对其自身提示、技能或工作流的修改,并保留那些在小留出集上得分更高的修改来改进。几乎所有努力都集中在“提议器”上;我们指出“验收器”(决定是否提交更改的规则)是循环中隐秘的薄弱环节。在同一个噪声开发集估计上应用数百次后,无处不在的“如果分数上升就保留”规则是一种不受控制的自适应多重测试。智能体实际上在进行“自p值操纵”,积累了大量“虚假提交”,这些提交导致智能体发生变动和漂移,而非真正改进。我们将提交决策重新构建为序贯假设检验,并提出了PACE(配对随时有效提交评估),一种无需训练的“随时有效提交门控”:每个候选方案与当前方案在相同实例上进行对比,仅当基于投注的e过程累积到决定性证据时才提交,提前停止以节省评估,并将每个候选方案的虚假提交概率控制在用户设定的水平(每个决策的保证,而非运行级别),即使在可选停止条件下也是如此。我们在三个任务(GSM8K、SVAMP、ARC-Challenge)上,对Qwen2.5智能体(0.5B–3B)在提示层面进行自进化评估:这是一个刻意最小化的测试平台,能隔离验收决策,而PACE能清晰地分离真实收益与噪声。在已知有益修改混杂在噪声提议中时,贪婪验收会提交30–42%的虚假修改和10–33%的有害修改,而PACE仅提交真正的改进,几乎没有其他内容(审计标记的虚假提交为0/5),在保持留出准确率的同时方差显著降低(3B时+0.74±0.04 vs. +0.54±0.30),且评估成本降低约18%。当使用随机智能体且没有真实收益时,贪婪验收每次运行会提交13–21个虚假自修改(72–100%为虚假),导致最脆弱的智能体发生变动并下降4.9个百分点,而PACE几乎不提交任何内容,保持基线水平。自进化的可靠性取决于验收器,而不仅仅是提议器。

## 1 引言

自进化智能体现在能够重写自己的提示、归纳可复用的技能、编辑自身控制代码或重组多智能体工作流,并且取得了快速进展(Hu等人,2024(https://arxiv.org/html/2606.08106#bib.bib1);Yin等人,2024(https://arxiv.org/html/2606.08106#bib.bib2);Zhang等人,2025a(https://arxiv.org/html/2606.08106#bib.bib3);Wang等人,2023(https://arxiv.org/html/2606.08106#bib.bib5);Khattab等人,2024(https://arxiv.org/html/2606.08106#bib.bib7))。然而,几乎所有进展都来自于构建更好的“提议器”:生成候选修改的机制。而闭合循环的决策——是否“提交”提议的更改——却一直依赖一个未经检验的启发式规则。这个疏忽正是自进化最容易出错的地方:一个好的验收器能够保留提议器发现的真正收益,拒绝其余部分,且成本低廉。

参见图注

图1:PACE概览。自进化智能体提出修改并必须决定是否提交每个修改。贪婪验收会保留任何在复用的开发集上分数上升的候选方案——这是在嘈杂、回收的信号上进行“p值操纵”。PACE则运行一个随时有效的配对检验(麦克尼马尔不一致对+投注e过程),仅当证据超过E≥1/α时才提交,这限制了每个候选方案在可选停止下的虚假提交概率为α。一个新鲜的留出池用于审计决策,仅供测量。

在实践中,答案几乎总是相同的启发式规则:在小留出集上测量候选方案,如果分数上升就保留。一些系统增加了轻量级防护措施(第二验证集、偶尔的人工检查、任务特定过滤器),但无人值守、每轮都运行的操作规则仍然是“当且仅当开发集分数提高时才提交”。本文提出了一个简单但具有尖锐后果的观察。自进化运行会数百次地将这一验收规则应用于同一个、有噪声的质量估计。从统计角度看,这是对复用验证信号的自适应多重检验。就像一位研究人员对同一数据集测试多个假设并保留任何达到显著性的结果会导致大量错误发现一样,一个保留每个略微提升小开发集分数的更改的自进化智能体会积累“虚假提交”:那些偶然帮助了估计但无助于(甚至有害于)真实性能的修改。然后智能体会发生变动。它不断修改自身,发生漂移,充其量浪费计算资源,最坏情况下降级。因此,带有贪婪验收器的自进化智能体在一个极小的验证集上运行一系列未注册、未经修正的试验,并相信胜出的方案。

我们使这种失败模式变得精确,并为其提供一种简单的统计控制。我们的贡献:

- •**诊断**。我们将自进化的提交步骤框架化为一系列假设检验,并证明贪婪验收是一种不受控制的自适应检验——预测并在经验上展示了高比例的虚假和有害提交(§3(https://arxiv.org/html/2606.08106#S3))。
- •**方法(PACE)**。我们提出**PACE**,一种随时有效的提交门控:一个无需训练的包装器,将每个候选方案与当前方案在相同实例上进行比较,仅当基于投注的e过程超过校准阈值时才提交,提前停止以最小化评估(§4(https://arxiv.org/html/2606.08106#S4))。该方法故意设计得简单——一个单一的配对序贯检验,约10行代码——并适用于任何其当前方案和候选方案可以在共享实例上评分(二元正确性或成对偏好)的自修改循环,只消耗这些配对结果,而不需要提议器的内部结构。据我们所知,这是首次将智能体自进化中的接受步骤明确视为随时有效假设检验,建立在序贯和安全随时有效推理的悠久传统之上(Wald, 1947(https://arxiv.org/html/2606.08106#bib.bib24);Shafer, 2021(https://arxiv.org/html/2606.08106#bib.bib22);Ramdas等人,2023(https://arxiv.org/html/2606.08106#bib.bib23));贡献在于这种**抽象**,将随时有效检验定位在提交步骤,而非检验本身(后者是标准的)。
- •**证据**。在Qwen2.5智能体(0.5B–3B)上,于算术(GSM8K, SVAMP)和多项选择科学(ARC-Challenge)三项任务中进行自进化,PACE将贪婪验收的30–100%审计标记虚假提交率降至约0%,其每次运行13–21个噪声提交降至约0,同时保留真正的收益,无论是在含有已知有益修改的受控机制下,还是在现实的随机机制下——且评估成本低于贪婪验收(§5(https://arxiv.org/html/2606.08106#S5))。

我们在提示层面的自进化中研究这一验收器:特意选择**最小**的自修改循环,其中任何变动或降级都可追溯到验收规则,而非复杂的提议器或脆弱的执行基础。从接口上看,该门控与提议器和循环无关,只消耗配对的正确性结果,因此更丰富的循环(技能、代码、多智能体拓扑)可以直接继承相同的决策。然而,我们仅演示了其在提示演化上的应用,因此系统层面的通用性只作为论证而非展示。

## 2 相关工作

#### 自进化智能体。

近期系统在智能体设计、代码、提示和技能上进行搜索,通过基准性能保留候选方案:ADAS以代码形式编程智能体(Hu等人,2024(https://arxiv.org/html/2606.08106#bib.bib1)),Gödel智能体重写自身逻辑(Yin等人,2024(https://arxiv.org/html/2606.08106#bib.bib2)),Darwin Gödel机器进化自修改编码智能体(Zhang等人,2025a(https://arxiv.org/html/2606.08106#bib.bib3)),Voyager增长技能库(Wang等人,2023(https://arxiv.org/html/2606.08106#bib.bib5)),Agent Workflow Memory归纳可复用例程(Wang等人,2024(https://arxiv.org/html/2606.08106#bib.bib6));参见Gao等人(2025(https://arxiv.org/html/2606.08106#bib.bib4))的综述。所有这些系统都通过经验分数选择修改,并明确将目标攻击和自修改的稳定性列为未解决问题;没有一个将接受视为统计决策——这正是我们填补的空白。

#### 提示和工作流优化。

并行的工作流优化冻结模型周围的脚手架——少样本演示和指令(DSPy(Khattab等人,2024(https://arxiv.org/html/2606.08106#bib.bib7)))、文本“梯度”(TextGrad(Yuksekgonul等人,2024(https://arxiv.org/html/2606.08106#bib.bib8)))、指令搜索(OPRO(Yang等人,2024(https://arxiv.org/html/2606.08106#bib.bib9)))、反思或进化提示搜索(GEPA(Agrawal等人,2025(https://arxiv.org/html/2606.08106#bib.bib10))、Promptbreeder(Fernando等人,2023(https://arxiv.org/html/2606.08106#bib.bib12))、EvoPrompt(Guo等人,2024(https://arxiv.org/html/2606.08106#bib.bib27)))以及工作流搜索(AFlow(Zhang等人,2025b(https://arxiv.org/html/2606.08106#bib.bib11)))。这些方法在固定开发集上优化标量适应度,并且已知会过拟合该开发集;我们解决的是正交问题:是否应该提交一个候选方案。

#### 自我改进及其病理。

基于循环的自我改进(STaR(Zelikman等人,2022(https://arxiv.org/html/2606.08106#bib.bib13))、Reflexion(Shinn等人,2023(https://arxiv.org/html/2606.08106#bib.bib14))、Self-Refine(Madaan等人,2023(https://arxiv.org/html/2606.08106#bib.bib15))、Self-Rewarding LMs(Yuan等人,2024(https://arxiv.org/html/2606.08106#bib.bib16)))受到自我评估可靠性的限制:内在自我修正可能降级推理(Huang等人,2024(https://arxiv.org/html/2606.08106#bib.bib17)),生成-验证差距控制并最终关闭自我改进(Song等人,2025(https://arxiv.org/html/2606.08106#bib.bib18)),无锚循环被奖励攻击并崩溃(Shafayat等人,2025(https://arxiv.org/html/2606.08106#bib.bib19)),递归自我训练侵蚀多样性(Shumailov等人,2024(https://arxiv.org/html/2606.08106#bib.bib20))。这些分析针对自我改进产生的**信号**;我们处理的是消费该信号的**决策规则**。

#### 序贯和随时有效检验。

PACE借助安全、随时有效的推理:e过程和基于投注的检验产生非负鞅,其最大值由Ville不等式控制,能够实现在可选停止下仍然有效的检验(Wald, 1947(https://arxiv.org/html/2606.08106#bib.bib24);Shafer, 2021(https://arxiv.org/html/2606.08106#bib.bib22);Ramdas等人,2023(https://arxiv.org/html/2606.08106#bib.bib23));在线错误控制程序可控制测试流上的错误(Ramdas等人,2017(https://arxiv.org/html/2606.08106#bib.bib21))。我们将这一机制引入智能体自进化循环,而据我们所知,目前提交决策是由无保护的点估计做出的。

## 3 自进化中的提交决策

#### 设置。

自进化智能体维护一个配置c_t(此处为系统提示),并运行T轮。在第t轮,提议器建议一个修改c'_t(添加/重写/删除/合并一条指令)。一个**验收规则**A决定是提交(c_{t+1}=c'_t)还是拒绝(c_{t+1}=c_t)。质量通过大小为n的小留出集D上的准确率ŝ_D(c)来读取,这是智能体真实准确率s(c)的估计。

#### 贪婪接收就是自适应多重检验。

近乎通用的规则是贪婪的:

A_greedy: 提交 ⇔ ŝ_D(c'_t) > ŝ_D(c_t)。 (1)
由于D很小且每轮复用,ŝ_D是s的一个有噪声估计,且经过T轮,智能体针对同一个噪声进行了T次比较。考虑当没有真正改进可用时(每轮s(c'_t) ≤ s(c_t)):候选方案仍以非平凡概率赢下比较,仅仅因为ŝ_D的波动。每个这样的被接受的更改都是“虚假提交”,如果真实准确率严格下降,则是“有害提交”。因此,贪婪接收以由开发集噪声设定的速率积累虚假提交,与是否存在真正改进无关——智能体在噪声上不断修改自身。这正是复用数据集上自适应多重检验的结构:智能体运行T个未注册、未修正的显著性检验,并保留任何看起来不错的方案。

#### 为什么明显的修复措施不够。

这是“自适应数据分析”的教科书案例:复用同一个验证集来引导一个长程、依赖数据的选择序列,会使朴素估计失效并膨胀错误发现(Dwork等人,2015(https://arxiv.org/html/2606.08106#bib.bib28);Blum和Hardt,2015(https://arxiv.org/html/2606.08106#bib.bib29))。标准的补救措施在自主循环中难以自洽。更大的开发集只是推迟问题——其噪声随1/√n缩小,而自适应比较的次数随运行增长。固定的多重性修正(Bonferroni或α支出)必须预先知道测试次数,但开放式运行无法预知,且预算消耗太快以至于错过真正收益(§5(https://arxiv.org/html/2606.08106#S5))。每轮刷新留出集可以恢复有效性,但假设有源源不断的新标记数据,智能体很少拥有。循环实际需要的是一个在**无界、自适应选择的**同一数据查看次数下仍然有效的检验——一个随时有效的序贯检验,这正是下一节构建的内容。

#### 我们的目标。

一个好的验收规则应在有可靠证据表明修改提升真实准确率时才提交,同时满足:(i) 保留真正的改进,(ii) 尽可能少地消耗评估,(iii) 无需训练。下一节给出这样的规则。

## 4 PACE:一个随时有效的提交门控

#### 配对评估。

对ŝ_D(c_t)和ŝ_D(c'_t)进行朴素的比较混入了两个方差来源:哪些实例容易,以及候选方案是否真正更好。配对消除了第一个来源。我们在**相同**实例上评估当前方案c_t和候选方案c'_t。对于实例i,如果候选方案正确而当前方案错误,则令w_i=1;如果反过来,则w_i=0;平局(两者都正确或都错误)则丢弃——这是一种麦克尼马尔式配对比较(McNemar, 1947(https://arxiv.org/html/2606.08106#bib.bib30))。在原假设“候选方案并非更好”下,不一致对等概率出现两个方向:Pr[w_i=1]=1/2。

#### 基于投注的检验。

e过程背后的思想很简单:将检验视为一场投注游戏。我们从财富E_0=1开始,将财富的λ比例投注在每个不一致对是“赢”(w_i=1)上。如果原假设成立,投注是公平的,财富平均保持在1附近;如果候选方案真正更好,赢的次数超过输的次数,财富增长。具体来说,在每个不一致对之后,我们更新

E ← E · (1 + λ (2w_i - 1)), λ ∈ [0,1)。 (2)
在原假设下,E[2w_i - 1]=0,因此E是一个非负鞅,其初始值为1。当E≥1/α时,通过Ville不等式,我们可以拒绝原假设,同时将第一类错误率控制在α。关键点在于:该检验
- **永远有效**:无论我们决定何时检查数据,无论我们是否提前停止,错误概率的保证都成立。这使得它非常适合自进化,因为该循环不想预先承诺一轮固定的评估预算。
- **自适应停止**:一旦证据足够强(或如果预算用完),我们立即停止。对于真正无害的方案,E保持接近1,我们永远不提交;对于有益方案,E迅速增长并超越阈值。
- **数据有效**:配对比较意味着每次评估都通过重点关注两个方案有分歧的实例来提供最丰富的信息。

实际实施中,我们设置一个小的λ(例如0.05),并运行直到E≥1/α(提交)或达到最大评估次数(拒绝)。我们设置α=0.05,因此阈值E=20。在算法1中,我们给出了一个约10行的Python实现。该门控只需一个二元结果流(“当前方案正确吗?候选方案正确吗?”),一个BettingAgents内部状态和阈值参数。

相似文章

PACE: 双时间尺度自进化小语言模型智能体

arXiv cs.LG

PACE 提出了一种双时间尺度框架,用于小语言模型智能体的自进化,协调低风险的提示精炼与高风险的控制器逻辑更新,在多个基准上实现了高达 +9.2% 的相对提升。

EVE-Agent: 可验证证据的自我进化智能体

arXiv cs.AI

EVE-Agent 提出了一个自我进化搜索智能体框架,通过生成问题、答案和证据片段,并基于证据的边际准确性增益进行训练,确保证据可验证性。这提高了基于依据的正确性,且无需人工标注。

预见与学习:在主动式智能体中释放空闲时间计算能力

Hugging Face Daily Papers

ProAct 是一种主动式智能体架构,利用空闲时间计算来预见用户需求,提升任务完成的效率与准确性。它引入了 ProActEval 基准测试,涵盖 40 个领域的 200 个场景,相比被动式基线取得了显著提升:所需交互轮次减少 14.8%,用户努力降低 11.7%,幻觉率下降 28.1%。