RECAP:面向提示持续适应性的回归评估基准
摘要
介绍了RECAP,一个用于在主动适应场景下评估提示持续学习能力的基准。结果表明,现有提示优化方法在该场景下表现不佳,亟需新方法。
arXiv:2606.06698v1 公告类型: 新论文
摘要:生产级智能体系统经常面临不断变化的约束条件,且必须从下一次交互开始立即遵守。诸如工具调用通知改变合规阈值、或策略更新增加披露要求等场景均符合这一标准,在生产环境中几乎不容许出现错误。这种主动适应场景在部署中十分常见,但当前的基准测试却未涉及——它们要么假设静态约束集,要么采用带有评估反馈的反应式协议。我们引入了RECAP基准,该基准在严格遵循“先适应、后测试”的主动协议下,从约束层面衡量持续学习现象(遗忘、回归、正向迁移):提示优化方法仅接收约束规范,且必须在未看到任何测试数据之前进行泛化。我们使用六种方法,在四种大语言模型和三种含动态约束的调度方案上进行了评估,发现这些方法在性能上并未显著提升,即便付出了更高的延迟代价。这些针对离线或反应式场景设计的方法,并不适用于主动式范式。我们的工作强调了设计主动式提示适应方法的迫切需求——在部署中,模型必须对不断变化的需求保持鲁棒性。
查看缓存全文
缓存时间: 2026/06/08 09:17
# RECAP:面向持续提示适配的回归评估
来源:https://arxiv.org/html/2606.06698
###### 摘要
生产环境中的智能体系统经常面临不断变化的约束条件,并且必须从下一次交互开始就立即遵守。诸如工具调用通知改变合规阈值、或策略更新增加披露要求等场景都符合这一标准,在生产环境中几乎没有容错空间。这种*主动式*适配设置在实际部署中很常见,但在当前的基准测试中却完全缺失——后者要么假设约束集是静态的,要么采用带有评估反馈的反应式协议。我们提出了RECAP,一个在严格主动式“适配-然后-测试”协议下,从约束层面衡量持续学习现象(遗忘、回归、前向迁移)的基准测试:提示优化方法仅接收约束规范,必须在看到任何测试数据之前进行泛化。我们在四个大语言模型和三种具有演化约束的时间表上评估了六种方法,发现这些方法在性能上没有显著提升,即使付出了更高的延迟代价。这些方法是为离线或反应式场景设计的,不适用于主动式范式。我们的工作强调了设计主动式提示适配方法的日益增长的需求,其中模型必须在部署中保持对不断变化需求的鲁棒性。
**RECAP:面向持续提示适配的回归评估**
Harsh Deshpande, Kushal Chawla, Sangwoo Cho, William Campbell
\{harsh.deshpande2\}@capitalone.com
## 1 引言
生产环境中的智能体系统在持续变化的约束条件下运行:一次工具调用响应收紧了长度限制,一次策略更新增加了披露要求,或用户偏好改变了预期语气。系统必须立即满足新约束,同时继续遵守所有先前约束。此外,这些约束通常不是集中记录的:它们会从单个工具调用响应、用户交互以及跨多个用户的个性化设置中积累而来(Ye等人,2026 (https://arxiv.org/html/2606.06698#bib.bib35)),这使得在每次一个约束发生变化时收集完整活跃集并联合优化变得不现实(Banerjee等人,2025 (https://arxiv.org/html/2606.06698#bib.bib36))。与EMNLP 2026“超越静态基准重新思考评估”的主题一致,我们认为部署智能体的进步必须考虑在演化规范下的纵向行为。我们重点关注**主动式适配**,即系统仅接收约束规范,且在未看到任何真实测试数据或反馈之前就必须遵守,同时保持最小的延迟开销。这种设置在部署中无处不在,但在当前的评估范式中却完全缺失。
指令遵循基准测试(Zhou等人,2023 (https://arxiv.org/html/2606.06698#bib.bib4);Guo等人,2026 (https://arxiv.org/html/2606.06698#bib.bib1);Jiang等人,2024 (https://arxiv.org/html/2606.06698#bib.bib20);Qin等人,2024 (https://arxiv.org/html/2606.06698#bib.bib30))呈现的是固定的约束集,并衡量单次成功率,没有让约束随时间演化的机制。提示优化方法(Yuksekgonul等人,2025 (https://arxiv.org/html/2606.06698#bib.bib31);Yang等人,2024 (https://arxiv.org/html/2606.06698#bib.bib32);Khattab等人,2024 (https://arxiv.org/html/2606.06698#bib.bib8);Opsahl-Ong等人,2024 (https://arxiv.org/html/2606.06698#bib.bib34))确实涉及迭代改进,但假设能够访问具有代表性的评估数据和多轮反馈,这在主动式设置中是无法获得的。像ACE这样的反应式协议(Zhang等人,2026 (https://arxiv.org/html/2606.06698#bib.bib2))允许在观察到的失败上进行迭代调试,但同样需要测试时的反馈来驱动适配。
演化约束的自然框架是持续学习(CL),它研究系统如何在不忘却先前任务的情况下适应新任务(De Lange等人,2021 (https://arxiv.org/html/2606.06698#bib.bib24);Shi等人,2024 (https://arxiv.org/html/2606.06698#bib.bib17);Wu等人,2024 (https://arxiv.org/html/2606.06698#bib.bib19))。然而,现有的持续学习通过正则化(Kirkpatrick等人,2016 (https://arxiv.org/html/2606.06698#bib.bib15))、回放(Lopez-Paz和Ranzato,2017 (https://arxiv.org/html/2606.06698#bib.bib6))或提示嵌入(Wang等人,2022b (https://arxiv.org/html/2606.06698#bib.bib27),a (https://arxiv.org/html/2606.06698#bib.bib28))在模型权重上操作,并未处理提示级别的文本约束——其中模型权重被冻结,适配必须完全通过输入实现。这些方法都没有评估主动式情况,即方法必须仅从规范中进行泛化。
我们提出**RECAP**:面向**持续提示适配**的**回归评估**,一个将约束满意度评估扩展到静态设置之外的基准测试。RECAP在受演化约束(包含**添加**、**编辑**和**删除**操作)的时间表上执行持续评估。这使得在主动式协议下对最近的提示适配方法进行严格评估成为可能。我们总结贡献如下:
1. 1. 我们设计了一个**约束级别的持续学习基准测试**,通过类型化操作将静态的指令遵循数据集转换为时间评估流,并在主动式协议下进行:方法仅接收约束规范,必须立即泛化(§2 (https://arxiv.org/html/2606.06698#S2))。
2. 2. 我们开发了一套**分解式指标套件**,衡量约束满意度、回归、编辑采纳(是否采用修改后的约束?)、遗忘保真度(是否忘记已删除的约束?)和效率(§2 (https://arxiv.org/html/2606.06698#S2))。
3. 3. 我们提供了**经验证据**,表明现有的提示适配方法在结构上不适用于主动式范式,并讨论了失败模式以指导未来工作(§3 (https://arxiv.org/html/2606.06698#S3)和§4 (https://arxiv.org/html/2606.06698#S4))。
## 2 方法论
**源数据:**在主动式设置中,约束独立于基础任务而演化。这要求源数据中的约束与基础指令分离。我们基于RECAST-30K(Guo等人,2026 (https://arxiv.org/html/2606.06698#bib.bib1))构建,该数据集基于Tulu 3 Persona IF(Lambert等人,2025 (https://arxiv.org/html/2606.06698#bib.bib3))。数据包含基础指令(例如,“为数据科学职位写一封求职信”),并配有一个或多个约束(例如,“保持在200字以内”或“至少提到Python三次”)。约束被分组为语义*类型*(长度、关键词、格式、语气等),每种类型有一个或多个具体值(例如,最大长度可以是200或300字)。我们共有21个约束,其中8个具有基于规则的确定性验证器,13个需要大语言模型判断(附录B (https://arxiv.org/html/2606.06698#A2))。
**操作与影子评估:**RECAP通过定义演化约束的**时间表**,将这一由指令和约束组成的静态数据集转换为时间评估流。在时间表的每一步,我们应用三种操作之一:1)**添加**引入一个新的约束类型,2)**编辑**替换现有类型的具体值,3)**删除**完全移除一个约束类型。一个**时间表**由15-20步的操作序列组成(附录C (https://arxiv.org/html/2606.06698#A3)),控制哪些约束被引入、修改或移除,以及引入、修改或移除的顺序。
一个关键问题是:适配新约束或修改后的约束是否会对先前已满足的约束造成干扰?为了在编辑和删除后衡量这一点,我们将旧约束作为**影子**保留在后续所有步骤的评估集中:即使大语言模型不再看到该规范,响应仍会对照被替换或删除的规范进行检查。这使得能够追踪编辑持久性(模型是否随时间恢复到旧行为?)和遗忘反弹(已删除的约束是否重新出现?)。
**RECAP协议:**我们采用持续学习评估中的“适配-然后-测试”协议(Lopez-Paz和Ranzato,2017 (https://arxiv.org/html/2606.06698#bib.bib6);Chaudhry等人,2018 (https://arxiv.org/html/2606.06698#bib.bib5),2019 (https://arxiv.org/html/2606.06698#bib.bib22);De Lange等人,2021 (https://arxiv.org/html/2606.06698#bib.bib24))。在每一步,方法首先适配新的约束操作,然后在所有活跃约束上进行评估(见图1 (https://arxiv.org/html/2606.06698#S2.F1),伪代码见附录A (https://arxiv.org/html/2606.06698#A1))。适配是**主动式**的:`adapt()`仅接收约束规范(例如,“编辑长度:保持在500字以内”),但没有测试提示,也没有来自评估的反馈。方法可以在适配期间使用内部自弈(生成并判断合成响应),但它们永远不会观察到真实测试数据或来自先前步骤的评估结果。无适配基线(Base LLM)完全跳过适配,仅在测试时在每条用户提示后附加当前活跃约束,从而纯粹测试大语言模型的指令遵循能力。
```
生产环境智能体系统
工具调用通知
“合规阈值:< 3000”
临时沙箱
自我评估与优化
实时流量
多样的真实请求
规范 服务 无反馈
RECAP协议(一步)
约束规范
编辑 Length: <500 words
adapt()
沙箱
在新/修改的约束上优化
test()
评估
多样约束与指令
规范 提示 无反馈
类比
```
图1:RECAP协议镜像生产部署:约束规范到达,方法在无测试数据的情况下适配,然后在所有活跃约束上进行评估。这在多步时间表中重复进行。
**指标:**我们的主要指标是**sat̄**:跨所有类型和步骤的平均约束满足率(公式见附录D (https://arxiv.org/html/2606.06698#A4))。然而,`sat̄`本身可能会掩盖重要的动态行为。一种方法可能保持平均满足率,同时悄悄地在先前约束上回归——我们通过*峰值遗忘*(Chaudhry等人,2018 (https://arxiv.org/html/2606.06698#bib.bib5))(从类型先前峰值的最大下降)和*附带损伤*(操作后非目标类型的平均下降)来检测这一点。对于编辑,我们定义*编辑切换*:满足新规范但不满足旧规范的样本比例。对于删除,我们询问模型是否适当地停止满足已移除的约束:*遗忘保真度*衡量满足率恢复到其无约束默认率的速度。我们还报告延迟(附录E (https://arxiv.org/html/2606.06698#A5))。
**方法:**我们评估6种提示适配方法,涵盖少样本(ICL)、基于记忆(Dynamic Cheatsheet,Suzgun等人,2026 (https://arxiv.org/html/2606.06698#bib.bib7))和基于优化(ACE、GEPA、MIPROv2,Opsahl-Ong等人,2024 (https://arxiv.org/html/2606.06698#bib.bib34))范式。优化方法在`adapt()`期间使用*自弈*:大语言模型生成对合成提示的响应,然后第二次调用判断目标约束是否满足。它们在搜索策略上有所不同:ACE使用“生成-评估-反思-策划”流水线(每步4次大语言模型调用);GEPA通过变异和适应度选择演化种群(每步17次调用);MIPROv2根据评分历史提出多样化的候选(每步约11次调用)。为模拟动态真实场景,所有方法被要求在每一步仅针对单个新约束进行优化,且无法访问其他活跃约束。
## 3 实验设置
我们展示了在来自RECAST的50个基础提示上的聚合结果,使用3个时间表,每个时间表旨在评估持续适配的不同方面。**Interleaved-20**在20步中混合了11次添加、5次编辑和4次删除,测试方法是否能够处理并发积累和修订。**Clustered-20**应用相同操作但分阶段(ADD→EDIT→DELETE块),测试批量操作是否会放大遗忘。**Rule-Only-15**使用6种基于规则的类型和确定性验证器,采用交错结构,将真正的遗忘与大语言模型判断噪声隔离开来(更多细节见附录C (https://arxiv.org/html/2606.06698#A3))。我们使用4个骨干大语言模型:Llama-3.1-8B、Llama-3.3-70B、GPT-OSS-20B和GPT-OSS-120B(Grattafiori等人,2024 (https://arxiv.org/html/2606.06698#bib.bib33);Agarwal等人,2025 (https://arxiv.org/html/2606.06698#bib.bib37))。Claude Sonnet 4.5(Anthropic,2025 (https://arxiv.org/html/2606.06698#bib.bib38))用作定性约束的大语言模型判断器。总共有72个条件(4个骨干×6种方法×3个时间表)。详细超参数见附录itemnum_samples:(https://arxiv.org/html/2606.06698#A9.SS0.SSS0.Px2)。
## 4 结果
图2 (https://arxiv.org/html/2606.06698#S4.F2)报告了Llama-3.3-70B和GPT-OSS-120B的结果。其他模型的结果和效率比较见附录E (https://arxiv.org/html/2606.06698#A5)。核心发现是:没有任何适配方法在任何指标上取得比无适配基线(Base LLM)显著更好的性能,且这一结论适用于所有骨干大语言模型。在GPT-OSS模型上,适配甚至有害(平均满足率降低多达-0.176)。在Llama模型上,方法收敛到基线附近的噪声水平,同时消耗高达1.7倍的延迟。这表明与主动式设置在结构上不匹配。这些结论在仅规则时间表上同样成立(该时间表使用纯确定性验证器,无大语言模型判断器),证实它们并非判断器噪声的产物(附录F (https://arxiv.org/html/2606.06698#A6))。
峰值遗忘也证实了这一模式:适配方法在GPT-OSS模型上将遗忘增加了最多84%(ACE:0.330 vs. 基线0.179,在120B上),这是由于上下文积累——随着提示工件的增长(ACE从187字符增至9K字符),早期约束信号在上下文窗口中被稀释,导致先前已满足的类型发生回归(图3 (https://arxiv.org/html/2606.06698#S4.F3))。
| 方法 | sat̄ | Forg.↓ | Coll.↓ | Sw.↑ | UF↑ |
|------|-----|--------|--------|------|-----|
| **Llama 3.3 70B** | | | | | |
| Base LLM | 0.595 | 0.235 | 0.048 | 0.295 | 0.642 |
| ICL | 0.592 | 0.188 | 0.033 | 0.301 | 0.650 |
| Dyn. Ch. | 0.600 | 0.204 | 0.048 | 0.300 | 0.693 |
| ACE | 0.602 | 0.212 | 0.035 | 0.290 | 0.683 |
| GEPA | 0.603 | 0.198 | 0.048 | 0.291 | 0.643 |
| MIPROv2 | 0.595 | 0.209 | 0.034 | 0.282 | 0.672 |
| **GPT-OSS 120B** | | | | | |
| Base LLM | 0.630 | 0.179 | 0.053 | 0.309 | 0.674 |
| ICL | 0.598 | 0.211 | 0.040 | 0.317 | 0.730 |
| Dyn. Ch. | 0.610 | 0.224 | 0.050 | 0.315 | 0.709 |
| ACE | 0.454 | 0.330 | 0.050 | 0.289 | 0.610 |
| GEPA | 0.506 | 0.268 | 0.049 | 0.301 | 0.648 |
| MIPROv2 | 0.571 | 0.222 | 0.053 | 0.256 | 0.635 |
```
Llama-8B GPT-20B Llama-70B GPT-120B
0.3 0.3 0.4 0.4 0.5 0.5 0.6 0.6 0.7 0.7
Mean Satisfaction
Base LLM ICL Dyn. Ch. ACE GEPA MIPROv2
```
图2:(左)RECAP上的结果。sat̄:平均满足率,Forg.:峰值遗忘,Coll.:附带损伤,Sw.:编辑切换,UF:遗忘保真度。粗体:最佳,下划线:次佳。完整结果及标准差见附录E (https://arxiv.org/html/2606.06698#A5)。(右)所有四个骨干大语言模型的平均满足率(±1标准差)。
(a)规范锁定
MIPROv2 · GPT-OSS-20B · 第12步
起始于“To”关键词“Fair Trade Cert.”关键词“transparent reports”主题action movies帮助actionable rec.长度3-paragraph结束于“practices”响应(273 words)1/12 在解决DACA的法律挑战时,最高法院2020年的决定... 过时的编译提示:topic=DACA, prefix=“In addressing...” 当前要求“To”+ Fair Trade。Base LLM:5/12。
(b)拒绝级联
ACE · GPT-OSS-120B · 第10步
起始于“The”结束于“society”长度约200w关键词“printing pre相似文章
通过引导进行嵌入:系统提示贝叶斯优化的动态表示
介绍ReElicit,一个贝叶斯优化框架,利用大型语言模型(LLM)来引导和调整特征空间,在聚合标量反馈下优化系统提示,在十个基准任务上取得了强劲性能。
GEPA:反思式提示演化可超越强化学习
GEPA 是一款提示优化器,利用自然语言反思从试错中学习,在多个任务中,以多达 35 倍的更少 rollout 次数超越了 GRPO 和 MIPROv2 等强化学习方法。
PEML:面向优化连续提示的参数高效多任务学习
PEML提出了一种参数高效的多任务学习方法,通过低秩自适应共同优化连续提示和模型权重。在多个基准测试上,平均准确率提升高达6.67%。
单一提示不够:指令敏感性削弱嵌入模型评估
本文通过实证表明,对指令调优嵌入模型进行单一提示评估是不够的,因为性能随提示措辞显著变化,且排行榜排名可通过提示选择被操纵。
自监督提示优化
本文提出了一种名为自监督提示优化(SPO)的框架,该框架通过输出对比来优化大语言模型的提示词,无需外部参考,显著降低了成本和数据需求。