PACE: 双时间尺度自进化小语言模型智能体

arXiv cs.LG 2026/05/25 04:00 论文

摘要

PACE 提出了一种双时间尺度框架,用于小语言模型智能体的自进化,协调低风险的提示精炼与高风险的控制器逻辑更新,在多个基准上实现了高达 +9.2% 的相对提升。

arXiv:2605.23019v1 Announce Type: new 摘要: 在生产环境中部署语言模型智能体通常需要大量计算和人工努力来调整提示、解析器、验证器以及智能体流水线的其他组件。自进化提供了一种有前景的替代方案,但现有大多数框架假设能够使用前沿模型来可靠地诊断失败、提出修订并判断自身更新。我们研究在资源受限条件下,冻结的小语言模型(SLM)是否可以作为有效的自进化智能体。我们提出 PACE(Prompt And Control Logic Evolution,提示与控制器逻辑进化),这是一种双时间尺度框架,协调低风险的提示精炼与高风险的控制器逻辑更新。PACE在固定控制器逻辑下进化提示,直到提示级别的增益饱和,然后考虑通过留出验证接受的有约束控制器逻辑更新。在三种冻结的小语言模型骨干(参数范围从4B到14B)和四个受控基准上,PACE在所有12种骨干-基准组合上取得了最佳性能,相比普通SLM智能体实现了高达 +9.2% 的相对提升,相比更强的单模式进化基线实现了高达 +5.4% 的相对提升。一个 tau-bench 案例研究进一步表明,PACE比普通和仅提示进化提高了多轮工具使用成功率。这些结果表明,无需更新模型权重或依赖前沿模型教师,即可实现可靠的SLM智能体自进化,且关键优势并非单一的最终求解模式,而是自主、经过验证地发现适合任务的推理策略。

查看原文

查看缓存全文

缓存时间: 2026/05/25 08:58

# PACE：面向小型语言模型代理的双时间尺度自我进化

来源：https://arxiv.org/html/2605.23019

陈灵, 裴晨, Albert Guan, 瞿佳明, Shayan Ali Akbar, Madhu Gopinathan, Erwin Cornejo  
亚马逊  
emorycl@amazon\.com

###### 摘要

在生产环境中部署语言模型代理通常需要大量计算资源和人力来调优提示词、解析器、验证器以及代理管道的其他组件。自我进化提供了一种有前景的替代方案，但大多数现有框架假设能够访问前沿模型，这些模型可以可靠地诊断失败、提出修订方案并判断其自身的更新是否应被采纳。我们研究冻结的小型语言模型（SLM）在资源约束下能否作为有效的自我进化代理。我们提出PACE（提示词与控制逻辑进化），一个双时间尺度框架，协调低风险的提示词优化与较高风险的控制逻辑更新。PACE在固定控制逻辑下进化提示词，直到提示词层面的收益饱和，然后考虑受约束的控制逻辑更新，这些更新需通过保留验证数据集的验证才能被采纳。在三个参数范围从4B到14B的冻结SLM骨干模型以及四个受控基准测试中，PACE在所有12个骨干模型-基准测试组合上均取得了最佳性能，相较于普通SLM代理的相对改进高达+9.2%，相较于更强的单模式进化基线相对改进高达+5.4%。一个τ-bench案例研究进一步表明，PACE在多轮工具使用成功率上优于普通和仅提示词进化的方案。这些结果表明，无需更新模型权重或依赖前沿模型教师，即可实现可靠的SLM代理自我进化，其关键收益并非任何单一的最终求解模式，而是自主、经过验证地发现适合任务的推理策略。

## 1 引言

基于语言模型的代理（Wang等人，2024a (https://arxiv.org/html/2605.23019#bib.bib3)）已成为通过推理、工具使用、验证和迭代优化来解决复杂任务的通用抽象。然而，在生产环境中部署此类代理通常需要大量计算资源和反复的人工干预来调优提示词、解析器、验证器以及代理管道的其他组件。最近关于代理自我进化的工作（Agrawal等人，2025 (https://arxiv.org/html/2605.23019#bib.bib31); Opsahl-Ong等人，2024 (https://arxiv.org/html/2605.23019#bib.bib26); Zhang等人，2025 (https://arxiv.org/html/2605.23019#bib.bib4)）提供了一种有前景的替代方案：代理可以利用执行反馈来修改提示词/任务上下文，或更改控制逻辑，从而改进自身行为，而无需更改底层模型参数。然而，大多数现有方法假设能够访问强大的前沿模型，这些模型可以可靠地诊断失败、提出高质量的修订方案，并判断这些修订是否应被采纳。当代理由小型语言模型（SLM）驱动时，这些假设变得脆弱。

本文研究冻结SLM代理的自我进化。我们专注于参数最多为14B的模型，在整个进化过程中模型权重保持不变。这个设置对于实际部署非常重要，因为本地服务、延迟、隐私或成本限制使得前沿模型API或大规模微调变得不可取。这在技术上也是具有挑战性的。SLM对提示词的复杂性更为敏感，并且通常在经过少量提示词修订后就会达到收益递减。同时，允许SLM自由重写其自身的可执行控制逻辑¹可能会不稳定：提议的编辑可能在语法上有效，但在语义上不正确，导致解析、验证、重试行为或推理时决策规则出现静默退化。

[图1：PACE在Qwen3.5-9B上的进化动态。仅提示词进化（+PE）早期性能提升快但迅速饱和，而控制逻辑进化（+CE）从开始就应用结构化更新时噪声较大。PACE首先利用稳定的提示词优化，当提示词收益趋于平稳后引入经过验证的控制逻辑更新，从而产生性能跃升和最终更优的准确率。]

¹ 非参数代码或配置，控制代理的推理过程，包括输出解析、验证、重试/修复策略、路由或回退规则、工具调用处理和解码设置。它排除了模型权重的更新。

我们工作的一个关键观察是，提示词更新和控制逻辑更新在代理改进中扮演不同的角色。如图1 (https://arxiv.org/html/2605.23019#S1.F1) 所示，仅提示词进化能快速提升性能，但一旦剩余的失败源于结构性瓶颈，例如脆弱的输出提取、缺失的验证、薄弱的修复逻辑或无效的采样策略，性能提升往往会饱和。相比之下，从一开始就启用控制逻辑更新的稳定性要差得多，因为SLM提出的结构性编辑可能在提示词尚未充分优化之前就引入性能退化。这些结果表明，可靠的SLM自我进化不应将提示词优化和控制逻辑修改视为可互换的操作：它应该首先利用低风险的提示词更新，只有在提示词层面的收益饱和之后才调用更高风险的控制逻辑更新，并附带明确的机制来验证提议的更改。

我们提出**PACE**（Prompt And Control Logic Evolution，提示词与控制逻辑进化），一个用于自我进化冻结SLM的双时间尺度代理框架。PACE通过一个控制器来实现自我进化，该控制器可以调用多种自适应工具，包括提示词进化、失败分析、控制逻辑提案、控制逻辑验证等。提示词进化被视为一个可频繁调用、低风险的工具，在固定的代理结构下运行；而控制逻辑进化则被视为一种较高风险的自适应行动，仅在提示词层面收益饱和时才被考虑。为了使此类更新可靠，PACE将**提案**与**接受**分开：SLM可以对代理管道中安全可编辑的组件提出受限的更改，但候选结构只有在保留验证数据集中优于当前代理且满足资源预算时才会被提交。

PACE不仅仅是提示词优化加上代码编辑；其贡献在于展示了一个冻结的SLM可以自主发现何时这些策略有用，提出适合任务的求解器修改，并仅通过经验验证才提交它们，而无需人为指定策略与任务的映射关系。

- **•** 我们引入了PACE，一个用于冻结SLM代理的双时间尺度代理自我进化框架，其中提示词进化是可频繁调用的低风险自适应工具，而控制逻辑进化是一种较高风险的自适应行动，仅在提示词层面收益饱和后才被调用。
- **•** 我们提出了一种基于提示词饱和的信用分配机制，该机制决定何时自适应应离开提示词空间并进入结构搜索，从而减少过早的代码级编辑，同时避免在边际收益消失后继续低效的提示词优化。
- **•** 我们引入了基于验证的结构进化，其中SLM生成的控制逻辑编辑被视为提案，并且只有在保留验证数据集中优于当前代理且满足资源预算时才被提交。
- **•** 我们在四个基准测试和三个参数范围从4B到14B的冻结SLM骨干模型上实证验证了PACE。PACE在所有12个骨干模型-基准测试组合上均取得了最佳性能，相较于普通SLM基线准确率相对提升了9.2%，相较于更强的单模式进化基线准确率相对提升了5.4%。此外，在τ-bench上，PACE在多轮工具使用成功率上优于普通和仅提示词进化的方案。

## 2 相关工作

代理自我进化（Tao等人，2024 (https://arxiv.org/html/2605.23019#bib.bib33); Fang等人，2025 (https://arxiv.org/html/2605.23019#bib.bib32)）已成为提升语言模型代理能力的一个关键方向。现有方法可以根据它们允许修改的代理定义部分大致分为两类：1）**提示词空间进化方法**，完全在文本领域操作；2）**自指控制逻辑进化方法**，允许修改可执行控制逻辑。

**提示词空间代理进化**。提示词空间进化通过优化文本工件（如系统提示词、任务指令、工具描述和输出约束）来改进代理行为，同时保持控制逻辑固定。这些方法使用执行反馈，包括错误输出、推理轨迹和工具使用错误，来指导提示词更新（Shinn等人，2023 (https://arxiv.org/html/2605.23019#bib.bib29); Wang等人，2023 (https://arxiv.org/html/2605.23019#bib.bib27)）。由于提示词更新保持在自然语言层面，它们稳定、样本高效且易于部署，尤其适用于冻结或小型语言模型。最近的工作（Zhang等人，2025 (https://arxiv.org/html/2605.23019#bib.bib4)）进一步将提示词进化视为结构化搜索，使用反思、特化和帕累托感知选择来平衡性能和成本（Agrawal等人，2025 (https://arxiv.org/html/2605.23019#bib.bib31)）。然而，提示词空间方法无法直接修复结构性瓶颈，如脆弱的解析、缺失的验证或薄弱的重试逻辑，因此当此类失败占主导地位时，性能往往会饱和。

**控制逻辑代理进化**。相比之下，控制逻辑进化允许代理检查和修改其自身的可执行逻辑（Wang等人，2024b (https://arxiv.org/html/2605.23019#bib.bib9)），包括控制流、验证例程和推理时配置。这些方法通常受递归自我改进的启发，其中代理的策略及其更新机制通过运行时内省和代码修改共同进化（Schmidhuber，2003 (https://arxiv.org/html/2605.23019#bib.bib10); Yin等人，2025 (https://arxiv.org/html/2605.23019#bib.bib1); Zhou等人，2025 (https://arxiv.org/html/2605.23019#bib.bib24)）。

PACE与这两类工作的不同之处在于它如何在冻结SLM约束下协调两种适应模式。提示优化方法通常假设固定的执行结构，因此无法直接修复结构性瓶颈，如脆弱的解析或缺失的验证。相反，自指代码进化方法通常允许在整个搜索过程中进行结构更改，当提出模型的规模较小时，这可能不稳定（Lin等人，2025 (https://arxiv.org/html/2605.23019#bib.bib23); Shao等人，2025 (https://arxiv.org/html/2605.23019#bib.bib22)）。PACE通过使提示词进化与结构进化之间的转换明确化来弥补这一差距：结构搜索被延迟，直到提示词收益饱和，并且只通过验证门控才被接受。更广泛地说，PACE不将提示词和控制逻辑更新视为独立的优化目标，而是视为具有不同风险的自适应行动，在冻结SLM有限的提案质量下，必须对这些行动进行调度和验证。因此，PACE的新颖之处不在于同时允许提示词和控制逻辑更改，而在于将它们分配到不同的时间尺度，并在提交更高风险的结构更新之前进行验证。

## 3 PACE：面向冻结SLM代理的双时间尺度自我进化

我们考虑由冻结的、资源受限的语言模型驱动的代理的自我进化。我们首先定义代理优化目标，然后介绍PACE作为一个用于协调提示词优化和受限控制逻辑更新的双时间尺度框架。

### 3.1 问题定义与目标

令 \( \mathcal{T} \) 表示任务分布，\( M_\theta \) 是一个具有固定参数 \( \theta \) 的预训练语言模型。在整个进化过程中，\( \theta \)保持冻结：模型不被微调、蒸馏或以其他方式更新。适应仅限于模型周围的代理定义。我们将代理定义为 \( A = (P, C) \)，其中 \( P \) 表示文本工件，如系统提示词、任务指令和格式约束，\( C \) 表示可执行控制逻辑，如解析例程、验证模块、回退策略和推理时配置。给定一个任务 \( \tau \sim \mathcal{T} \)，代理产生输出 \( y = A(\tau; M_\theta, P, C) \)，并通过特定任务的效用函数 \( U(\tau, y) \) 进行评估。执行代理会产生成本 \( \mathrm{Cost}(A) \)，如延迟、令牌使用量、模型调用次数或API调用次数。自我进化的目标是在固定资源预算 \( B \) 下迭代改进 \( (P, C) \)：

\[
\max_{P,C} \; \mathbb{E}_{\tau\sim\mathcal{T}}\left[ U(\tau, A(\tau; M_\theta, P, C)) \right] \quad \text{s.t. } \mathrm{Cost}(A) \leq B.
\tag{1}
\]

由于 \( M_\theta \) 保持固定，所有性能提升都必须来自对 \( (P, C) \) 的更改。

[图2：PACE概述。一个代理控制器调用提示词进化直到收益饱和，然后提出受限的控制逻辑更新，并仅在经过保留验证后才提交。]

### 3.2 PACE：一个双时间尺度代理自适应框架

在冻结SLM约束下直接优化公式(1)中的 \( (P, C) \) 是困难的，因为提示词编辑和控制逻辑编辑的失败方式不同。提示词进化成本低且稳定，但一旦失败源于结构性瓶颈（如脆弱的解析、缺失的验证、薄弱的重试逻辑或无效的采样），它就会饱和。控制逻辑进化可以通过改变模型输出的采样、解析、检查、修复或重新执行方式来解决这些失败，但这种编辑风险较高：SLM提出的更改可能不可执行或语义不正确。因此，PACE将自我进化视为一个双时间尺度的代理自适应过程，而不是对 \( (P, C) \) 的精确联合优化器。

如图2 (https://arxiv.org/html/2605.23019#S3.F2) 所示，一个代理控制器将提示词进化作为默认的低风险工具来调用，在提示词收益饱和后使用失败分析，提出受限的控制逻辑更新，并且只有当候选求解器能在资源预算下改进保留验证性能时才提交它。每次成功更新后，PACE在新的控制逻辑下重新调用提示词进化。这个循环协调了低风险的提示词优化与较高风险的结构自适应，同时减少了过早或有害的控制逻辑更改。

**提示词进化（PE）**。对于固定的控制逻辑 \( C \)，PACE使用提示词进化作为主要的低风险机制来改进当前代理。从概念上讲，这一步搜索一个能在资源预算下提高期望任务效用的提示词配置：

\[
P^*(C) = \arg\max_{P} \; \mathbb{E}_{\tau\sim\mathcal{T}}\left[ U(\tau, A(\tau; M_\theta, P, C)) \right] \quad \text{s.t. } \mathrm{Cost}(A) \leq B.
\tag{2}
\]

这个提示词进化工具完全在文本空间中操作（Pryzant等人，2023 (https://arxiv.org/html/2605.23019#bib.bib16); Opsahl-Ong等人，2024 (https://arxiv.org/html/2605.23019#bib.bib26)）。在每次迭代中，提示词候选通过三个互补渠道产生：*（i）* 手工制作的变异库，用于扰动角色描述、推理指令或采样温度；*（ii）* 反思性 (待续)

PACE: 双时间尺度自进化小语言模型智能体

相似文章

打破僵局：用于社交语言智能体的双尺度进化策略训练

PACEvolve++：提升进化搜索代理的测试时学习能力

语言模型代理的自我编程执行

重新思考自我进化语言模型智能体中的经验利用

通过世界知识探索训练LLM智能体实现自发、无奖励的自我进化

提交意见反馈