长周期研究智能体的搜索纪律

arXiv cs.AI 2026/06/11 04:00 论文

摘要

本文识别了长周期研究智能体中的一种失败模式：优化聚合指标可能选出提升核心数字但破坏关键子群体（反转）的候选项。它提出了一种搜索纪律协议，该协议使用一个外部控制环路，基于候选项的分解行为而非得分进行审计。

arXiv:2606.11522v1 公告类型：新摘要：自动研究智能体现在根据一个指标提出、评估和选择科学候选项，而该指标通常是在区域、切片或队列的异质空间上缩减得到的聚合值。我们表明，当科学有效性存在于这种分解结构中时，聚合值可能会错误地将不合要求的候选项排在首位。核心数字改善，但底层结构发生反转，因此基于该数字做出的决策会接受一个悄悄破坏模型的候选项。这种失败并非特定领域。只要候选项的有效性是多维的，而其验证器是单一缩减，就会出现这种情况。我们在生态系统人口模型（Ecosystem Demography model）的火灾模型任务上演示了这种反转。得分最高的候选项和略低的候选项在全局得分上处于噪声范围内，但得分最高的候选项破坏了受保护的北方地区，而另一个则保留了这些地区。区分它们的是每个区域的行为，而不是核心数字。这个决策不应留给产生候选项的智能体。优化得分的智能体是最不可能发现得分错误的一方，而且一旦智能体停止，提示就没有剩余回合了。我们将决策转移到一个外部控制环路，该环路根据每个候选项的分解行为进行审计，并在智能体做出决定后采取行动。它可以降级智能体本会接受的候选项，也可以重新打开智能体已声明完成的运行。我们的贡献在于反转发现本身，以及一个基于可审查的候选项效果证据而非得分进行决策的搜索纪律协议。

查看原文

查看缓存全文

缓存时间: 2026/06/11 13:47

# 长周期研究代理的搜索纪律
来源：https://arxiv.org/html/2606.11522
Adithya Srinivasan∗Devesh Paragiri∗
计算机科学系计算机科学系
北卡罗来纳州立大学马里兰大学
[email protected]@umd.edu
∗同等贡献。

###### 摘要

自主研究代理现在能够提出、评估并根据某一指标选择科学候选方案，而该指标通常是在区域、切片或队列等异质空间上汇总得到的聚合指标。我们表明，当科学有效性存在于这种分解结构之中时，聚合指标可能将错误的候选方案排在首位。总体数字改善了，但底层的结构却发生了逆转，因此基于该数字做出的决策会接受一个悄然破坏模型的候选方案。这种失败并非特定领域。只要候选方案的有效性是多维的，而其验证器是单一汇总指标，这种情况就会发生。

我们在生态系统人口模型中的一个火灾模型任务上展示了这种反转。得分最高的候选方案与得分稍低的候选方案在全局分数上处于噪声范围内，但得分最高的候选方案却使受保护的北方区域崩溃，而另一个则保留了它们。区分它们的不是总体数字，而是每个区域的行为。

这个决策不应留给产生候选方案的代理。优化分数的代理最不可能发现分数是错误的，而且一旦代理停止，提示就没有剩余回合了。我们将决策转移到一个外部控制循环中，该循环根据每个候选方案的分解行为进行审计，并在代理做出决定后采取行动。它可以降级代理本会接受的候选方案，也可以重新打开代理已宣布完成的运行。我们的贡献在于发现了反转现象，并提出了一种搜索纪律协议，该协议基于可审查的候选效果证据而非分数来做决策。

## 1 引言

自主研究代理现在能够运行长循环。它们重现基线、编辑模型、搜索参数、评估结果，并写下发现。难点在于候选方案改进了代理正在优化的分数之后做出的决策。同样的改进可能意味着真正的机制、一种在改进平均值的同时破坏输入空间重要部分的修复、对评估的利用，或者一种未能解决搜索本应处理的失败的窄范围修复。

这个决策之所以困难，是因为代理优化的分数通常是一个聚合指标，是在区域、切片或队列等异质空间上减少得到的单一数字。当候选方案的科学有效性存在于这种分解结构中时，聚合指标和正确决策可能会分道扬镳。总体数字改善了，但底层的结构却变得更糟，基于数字做出的选择会选中一个悄然破坏模型的候选方案。我们称之为反转，这是本文的核心对象。每当候选方案必须同时在多个维度上正确，而验证器只报告一个维度时，就可能出现反转。

在代理内部，决策位于最薄弱的位置。产生候选方案的代理也在其自身的上下文和日程中评判该方案，同时优化着已经发生反转的分数。提示无法解决这个问题。提示在运行开始时就被消耗掉；它无法在评估完成时唤醒，一旦代理停止就没有剩余回合。优化分数的代理处于最不利的位置来注意到分数是错误的。

因此，我们将决策置于代理之外，放在一个控制循环中，该循环根据每个重要候选方案的分解行为进行审计，并在代理无法控制的时刻采取行动。我们将目标行为称为搜索纪律，本文的其余部分将阐述它所执行的审计以及承载它的循环。

这项工作与长周期代理评估和科学代理系统最为接近。SWE-bench 和 MLE-bench 衡量代理是否完成现实世界的软件和机器学习任务[3 (https://arxiv.org/html/2606.11522#bib.bib3),1 (https://arxiv.org/html/2606.11522#bib.bib1)]。科学代理系统和案例研究表明代理在人工或自动验证下生成实验、代码和书面报告[14 (https://arxiv.org/html/2606.11522#bib.bib14),9 (https://arxiv.org/html/2606.11522#bib.bib9),7 (https://arxiv.org/html/2606.11522#bib.bib7)]。我们的关注点更窄、更早：即一个具有混合效果的候选方案是应该被接受、降级还是送回进行更多搜索的时刻。

本文做了三件事。它命名并在一个真实的科学建模任务上展示了聚合验证器反转，在一次运行中，得分最高的候选方案恰好是破坏模型的候选方案。它提出了搜索纪律，即基于候选效果审计而非分数来做决策。它构建了从代理外部强制执行此纪律的控制循环，这使得运行能够覆盖代理已做出的接受决定，并重新打开代理已停止的运行——这是提示无法做到的两种操作。

## 2 反转问题

我们将自主研究运行视为在固定契约下寻找改进目标系统的候选方案的过程。契约规定了候选方案可以使用什么、不能使用什么、如何评估以及搜索何时可以停止。代理提出候选方案、评估它们并选择一个。

候选方案由验证器评分。在我们关心的情况下，验证器是一种将异质空间上的行为汇总为一个聚合数字的缩减。我们区分聚合分数（代理优化的单一数字）和分解行为（候选方案在空间各部分、区域、切片或队列上的表现，它实际上必须在这些方面正确）。科学有效性是对分解行为的判断，而不是对聚合分数的判断。

当聚合分数和有效性判断对两个候选方案孰优孰劣存在分歧时，就发生了反转。聚合分数更喜欢得分较高的候选方案，而另一个才是合理的，因为得分较高的候选方案通过损害空间中一个重要部分来换取分数。这里的聚合分数不仅仅是嘈杂，它指向了错误的方向。任何只读取聚合分数的选择器（无论是代理、提示，还是基于同一数字的外部检查）都会选择那个破坏模型的候选方案。

两个特性使得这在自主研究中很可能发生，而非罕见。第一，空间是异质的，候选方案可以帮助容易的部分并伤害困难的部分，而两者上的平均值可能上升，而困难部分却崩溃；同样的隐藏分层效应使得聚合指标在标准评估中遗漏子组故障[10 (https://arxiv.org/html/2606.11522#bib.bib10)]。第二，聚合分数的分辨率有限。在强基线附近，候选方案之间的聚合分数差异通常处于评估噪声范围内，仅通过参数调整即可达到，因此聚合分数恰好在分解差异变得决定性时停止了携带可用信号。当两者同时成立时，决策无法从分数中读出，而必须基于分解行为做出。

## 3 搜索纪律与控制循环

搜索纪律意味着根据分解行为做决策，并使运行诚实地面对已经排除和尚未排除的内容。它包含两部分：一个定义决策必须依赖的证据的审计，以及一个在决策实际做出时强制执行审计的外部循环。

### 3.1 候选效果审计

对于每个重要候选方案，运行必须产生一个结构化的报告来代替分数。报告记录了候选方案在空间各处的帮助和损害情况、未改变的部分、验证器每个分量的变动、将受助部分与受损部分分开的合法输入衍生状态，以及一个测试该分隔符的有界诊断。报告归结为五种角色之一：(1) *分数胜出者*，在聚合分数上领先但未通过分解测试；(2) *受辩护候选方案*，在两者上都成立；(3) *权衡方案*，修复了空间的一部分但损害了另一部分；(4) *信息性失败*，排除了一个方向；(5) *被拒绝的捷径*。运行对角色负责，而单独的分数不能满足要求。

### 3.2 为什么决策必须是外部的

审计是一个准则，准则可以写入提示。但提示无法提供的是应用审计的立场。上下文内自我批评和迭代自我完善将评估保持在产生候选方案的代理内部[13 (https://arxiv.org/html/2606.11522#bib.bib13),5 (https://arxiv.org/html/2606.11522#bib.bib5)]。该代理在优化已经发生反转的聚合分数的同时评估自己的工作，因此其自我评估共享了造成问题的偏见。提示在代理停止后也没有回合。一旦代理写下结果并结束，提示无法重新打开运行。将审计置于独立过程中，使得法官成为没有产生该候选方案且与其无利害关系的第三方，并赋予其在代理已经做出决定后采取行动的能力。这些是决策位置属性，更好的提示措辞无法提供它们。

### 3.3 控制循环

![图1](https://arxiv.org/html/2606.11522/x1.png)
图 1：监控器观察代理运行并在决策边界采取行动。橙色箭头标示了单次提示在代理已经决定后无法采取的两个行动：降级候选方案和重新打开运行以继续。

该循环包裹了一个原本正常的代理运行。代理进行研究。监控器观察运行，检测到代理何时达到决策点，将证据的紧凑摘要发送给法官，然后保持沉默、发送纠正性指导或发送重新打开运行的续文。法官是一个单独的语言模型，用作评估器[15 (https://arxiv.org/html/2606.11522#bib.bib15)]，在这里是顾问性质的。它返回结构化决策，包括契约是否满足、适用哪个候选角色以及是否干预，监控器渲染并传递任何消息，因此法官错误不能未经过滤到达代理。干预是整个循环，法官只是其中一部分。循环观察什么、何时决定行动以及如何传递行动都决定了它能做什么。

### 3.4 使循环可靠

一些设计选择确保循环不会破坏它本该管理的运行。监控器自行启动代理并拥有其终端，因此它有可靠渠道传递指令并继续或停止运行，而不仅仅是观察。它在完成的证据上评判，将过程完成作为信号，并要求结果文件存在且稳定后再行动，因此法官看到的是已完成的工作。它通过将长指令写入文件并指向代理来传递长指令，这避免了部分读取并为审计留下工件。最后，只有当循环记录了一个终端状态时，运行才算完成；代理自己编写最终报告并不会结束它，最常见的停滞是代理认为自己已完成并返回空闲状态，循环会捕获这一点并在契约未满足时重新打开运行。当重新打开与代理自身的关闭冲突时，运行可能在科学上完成但未经认证，我们将这些情况与干净认证的案例分开。

## 4 评估

### 4.1 任务与设置

我们研究科学建模任务中的反转，改进陆地生态系统模型中的火灾组件，该模型在固定输入契约下预测燃烧面积[6 (https://arxiv.org/html/2606.11522#bib.bib6),4 (https://arxiv.org/html/2606.11522#bib.bib4),2 (https://arxiv.org/html/2606.11522#bib.bib2)]。这个任务是一个好测试，因为有效性确实是分解的。模型既根据总体数字评分，也根据其在全球各区域的行为评分，候选方案可以在改变不同区域（方向相反）的同时移动总体数字。代理从一个强基线开始，使用固定的模型衍生输入集（如干燥度、降雨量、温度和植被生产力）搜索更好的全局公式。它不能编写针对命名区域的规则、直接使用纬度或经度、添加外部数据、构建按位置查找表或直接拟合目标。重要候选方案在全局和每个区域上进行评分，并以独立的公共比较作为交叉验证[12 (https://arxiv.org/html/2606.11522#bib.bib12)]。

该任务通过构造包含了反转。模型在几个低火灾区域高估了燃烧量，因此明显的做法是添加一个抑制因子来降低预测的燃烧量。同一个抑制因子可能损害真正燃烧的区域，如北方森林，在那里较低的预测是错误的。因此，一个抑制因子可以通过修复容易的低火灾区域来提高总体分数，同时悄然破坏重要的区域，而总体分数不会揭示这一点。我们下面使用的区域分组仅用于分析；代理从未看到它们，也无法针对它们。

我们比较三种条件。第一种是一个强基提示，已经需要基线再现、全局和区域检查、单一合法公式、评估和维护日志。第二种在该提示中增加了一个结构性重构段落。第三种在控制循环下运行代理。基提示是有意设计的苛刻要求，其下的代理自行发现真实机制，因此循环与一个强大的对照组竞争。

在所有条件下，研究代理都是 Hermes[8 (https://arxiv.org/html/2606.11522#bib.bib8)]，一个开源自主代理，由 GPT-5.5 驱动，推理努力设置为高[11 (https://arxiv.org/html/2606.11522#bib.bib11)]；监控器的法官使用相同模型。

### 4.2 观察反转

在我们最清晰地看到反转的运行中，代理从同一机制家族中产生了两个重要候选方案，一个调整得比另一个更激进。在总体分数上，两者无法区分。它们离基线均在0.0060.006以内，彼此之间在0.0010.001以内。这个差距仅通过调整就能达到，太小而不足以支持改进的声明。总体分数没有理由偏爱任何一个候选方案。

区域行为使选择在相反方向上变得明显。得分较高的候选方案使北方森林区域崩溃，其保真度下降了约0.100.10和0.070.07。这是在应该燃烧的区域中的十分位级失败。得分稍低的候选方案将这些区域保持在基线附近（约0.0060.006和0.0030.003），并在其他地方保持了相当的修复。

这两个数字处于不同的尺度上，这正是关键所在。全局分数是每个区域池化的平均值，因此一个区域中的实际变化被稀释为万分位级的变动；那里的0.00070.0007差距处于噪声范围内。北方森林数字是该区域自身的分数，未被稀释，因此0.080.08的变化是远高于该区域噪声的结构性失败。聚合分数保持平坦，恰恰是因为它将北方森林的崩溃与其他地方的修复一起平均，这隐藏了损害（表1 (https://arxiv.org/html/2606.11522#S4.T1)）。基于总体分数进行选择的代理或提示会选择更高的数字，并交付破坏北方森林的候选方案。

表 1：聚合分数选择了错误的候选方案。两个候选方案相差0.0010.001的全局分数，但一个破坏了北方区域，另一个保护了它们。十进

长周期研究智能体的搜索纪律

相似文章

LongDS-Bench：论长时域智能体数据分析的失败

掩盖过时观察有助于搜索代理——直到它不再有效：一个机制图谱及其机理

扮演真正的研究者：一套评估前沿大语言模型及代理系统在研究生命周期中的基准测试集

SlimSearcher：通过自适应奖励门控训练效率感知的网络代理

SearchSwarm：面向长周期深度研究的代理型大语言模型中的委托智能

提交意见反馈