EvoBrowseComp:面向演进知识的搜索代理基准测试

arXiv cs.CL 论文

摘要

本文介绍了EvoBrowseComp,这是一个动态基准测试,包含400个英文和400个中文复杂问题,通过实时网络遍历合成,用于评估搜索代理,避免测试集污染,确保对参数记忆的鲁棒性。

arXiv:2606.13120v1 公告类型:新 摘要:搜索代理——大型语言模型与搜索工具的结合——加剧了对面向未来评估基准的需求。现有基准如BrowseComp依赖静态知识,容易受到测试集污染和参数记忆的影响。因此,模型可以通过事实回忆而非真正检索获得高分,通过推理捷径掩盖真实的浏览能力。 在本文中,我们介绍了EvoBrowseComp,一个演进式基准测试,包含400个英文和400个中文无污染复杂问题,通过实时网络遍历合成。为收集这些问题,我们设计了一个三代理协作框架:(1)问答合成代理,从实时网络中检索新知识以合成问答对;(2)信息过滤代理,根据可信度和流行度过滤检索到的知识,以阻止参数捷径;(3)高级指导代理,将问题形式化为推理图,以减少合成问答对中的逻辑冗余和捷径。由于该框架支持全自动合成,EvoBrowseComp可以定期更新以防止数据污染并保持时效性。大量实验证实了其巨大难度,需要广泛的横向搜索。它建立了一种可扩展的范式,用于自动更新、高难度的基准测试,与不断发展的世界知识和不断进步的代理能力保持同步。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:51

# EvoBrowseComp:基于演化知识的搜索智能体基准测试

来源:https://arxiv.org/html/2606.13120

王云涵♣♠ †,王佳安♠ ‡,黄联哲♠,曾宪峰♠,孟凡东♠

♣ 中国东北大学
♠ 腾讯微信AI实验室

[email protected]
{torchwang,fandongmeng}@tencent.com

† 本工作完成于王云涵在腾讯微信AI实习期间。
‡ 通讯作者。

###### 摘要

搜索智能体——配备搜索工具的大语言模型——加剧了对未来验证型评估基准的需求。现有基准(如BrowseComp)依赖静态知识,容易受到测试集污染和参数化记忆的影响。因此,模型可以通过事实回忆而非真实检索获得高分,通过推理捷径掩盖真正的浏览能力。在本文中,我们提出了EvoBrowseComp,这是一个通过实时网络遍历合成的包含400个英文和400个中文无污染复杂问题的演化基准。为了收集这些问题,我们设计了一个三智能体协作框架:(1) 一个QA合成智能体,从实时网络中检索*新鲜*知识并合成QA对;(2) 一个信息过滤智能体,根据可信度和流行度过滤检索到的知识,阻断参数化捷径;(3) 一个高级引导智能体,将问题形式化为推理图,以减少合成QA对中的逻辑冗余和捷径。由于该框架支持完全自动化的合成,EvoBrowseComp可以定期更新,以防止数据污染并保持时间上的新鲜度。大量实验证实其难度极高,需要广泛的横向搜索。它建立了一个可扩展的自动更新、高难度基准测试范式,能够跟上不断变化的世界知识和日益增长的智能体能力。¹¹¹我们已将数据发布在 https://hf.co/datasets/Krystalan/EvoBrowseComp

## 1 引言

参考图1

图1:来自EvoBrowseComp的一个示例问题。橙色突出显示的新鲜知识(2026年后)位于其推理路径中,而红色表示其最终答案。

配备网络搜索工具的大语言模型(LLMs),即搜索智能体︎Wei等人 (2025);Chen等人 (2025);Zhou等人 (2025),在信息寻求任务上表现出色。这些智能体运用了网络浏览能力——持续导航开放网络,执行多跳问题,并跨不同来源收集分散的证据︎Wu等人 (2025);Gupta等人 (2026)。为了衡量这种能力,许多基准数据集被相继提出。BrowseComp︎Wei等人 (2025) 和 BrowseComp-ZH︎Zhou等人 (2025) 专注于横向搜索,评估在寻找难以发现的事实时所表现出来的持久性和创造力。GAIA︎Mialon等人 (2024) 通过现实世界中的多步骤工具使用来测试通用助手的胜任能力。BFCL︎Patil等人 (2025) 通过函数调用来评估搜索编排,而WebWalker︎Wu等人 (2025) 则隔离了结构化网站内的垂直遍历。最近,专门的基准目标转向更高阶的检索能力:SealQA︎Pham等人 (2025) 探索了在嘈杂和冲突检索条件下的鲁棒性;而DeepSearchQA︎Gupta等人 (2026) 则通过要求跨多个来源的答案集合的详尽整理来提高标杆。这些努力为评估LLM的网络浏览能力建立了丰富的景观。然而,现有的基准通常锚定于静态知识。例如,BrowseComp︎Wei等人 (2025) 和 BrowseComp-ZH︎Zhou等人 (2025) 依赖于在某个固定时间点手动整理的问答对;BrowseComp-Plus︎Chen等人 (2025) 冻结了一个需记忆的文档快照以确保可重复性;GAIA︎Mialon等人 (2024) 将任务基于网页或附件的特定且不可更改的版本;而DeepSearchQA︎Gupta等人 (2026) 虽然是时间锚定的,但包含一个静态提示集,针对固定的答案键进行评估。这种静态性质使它们极易受到测试集污染:随着预训练语料库的扩展,基准内容不可避免地泄露到模型参数中,使模型能够通过参数化记忆而非真正的浏览和推理来解决问题。正如Anthropic (2026a) 所指出的,BrowseComp答案明确泄露到公共数据中,确认该基准已被数据污染破坏。

为了解决这些局限性,我们引入了*EvoBrowseComp*,一个演化基准,包含从实时网络遍历自动合成的400个英文和400个中文复杂问题。我们的构建流水线通过一个三智能体协作框架主动发现和验证新鲜知识,并自动构建QA对。首先,QA合成智能体通过网络工具检索新鲜知识,并基于这些知识提供(候选)QA对。其次,信息过滤智能体根据可信度(验证来源可信度和跨来源一致性)和流行度(通过过度暴露的知识阻断参数化捷径)过滤检索到的知识。第三,高级引导智能体使用三种基本操作(投影、交集和补集)将每个问题结构化为推理图。它识别结构冗余和捷径,并引导QA合成智能体朝着特定的合成方向。此外,我们采取了多种策略确保数据质量,包括文本质量、答案唯一性和问题难度的验证。通过这种方式,可以自动收集涉及新鲜知识的高质量、高难度问题(参见图1)。相比之下,之前的基准︎Mialon等人 (2024);Wei等人 (2025);Zhou等人 (2025);Chen等人 (2025);Pham等人 (2025);Gupta等人 (2026) 通常依赖劳动密集的人工整理,使得定期更新成本过高。EvoBrowseComp消除了这一障碍:其合成流水线完全自动化,无需昂贵的手动标注。这使得基准可以以最低成本持续刷新,用新出现的事实替换过度暴露的事实。基于EvoBrowseComp,我们在基于工具和无工具两种设置下评估了各种LLM。结果显示两个关键现象。首先,即使是Claude-Opus-4.6︎Anthropic (2026b),一款前沿推理LLM,在配备工具时也仅达到44.8%的准确率,表明我们时间新鲜、结构复杂的问题并非易于检索。其次,当移除工具访问时,Claude-Opus-4.6的性能下降到6.0%,证实回答这些问题需要基于新鲜知识的真实检索和多跳推理,而非静态回忆。我们认为这为搜索智能体的未来验证型评估建立了一个可持续、抗污染的范式。

总之,我们的贡献如下:

- • 我们引入了EvoBrowseComp,一个包含400个英文和400个中文复杂问题的搜索智能体基准。将问题锚定于新鲜知识,防止模型利用参数化记忆。
- • 我们提出了一个完全自动化的三智能体合成框架。它不需要昂贵的人工标注,支持持续的低成本再生,淘汰过度暴露的问题并整合新出现的事实和知识。
- • 广泛评估表明,即使是最前沿的LLM,在使用网络工具时也只能达到适度准确率(<45%),而当移除工具访问时性能急剧下降(<11%)。这证实了EvoBrowseComp有效地将真正的网络浏览和多跳推理与静态参数化回忆分离开来。

## 2 EvoBrowseComp

参考图2

图2:三智能体协作框架的示意图。(a) QA合成智能体从实时网络中检索知识并生成(候选)QA对;(b) 信息过滤智能体根据可信度和流行度判断每条检索到的知识(流行/过度覆盖或不可信的知识将被丢弃);(c) 高级引导智能体基于构建的推理图检测候选QA对中的逻辑冗余和捷径,并在下一次迭代中给QA合成智能体提出建议。

EvoBrowseComp建立在两个基本原则之上。第一,*问题应涉及新鲜知识*。通过从训练截止日期之后出现的知识合成问题,我们防止模型通过参数化记忆来回答。第二,*构建流水线应完全自动化且能持续演进*。这使得可以定期重新生成,淘汰过度暴露的问题并用新出现的知识替换,保证长期基准有效性,无需昂贵的人力整理。

### 2.1 数据收集

数据收集流水线作为一个三个专门智能体之间的**迭代反馈循环**运行(参见图2)。以种子实体开始,QA合成智能体搜索实时网络,提出候选QA对及其检索到的知识。每条检索到的知识由信息过滤智能体根据可信度和流行度进行评估。高级引导智能体将第*i*次迭代生成的候选问题的基础推理结构形式化,检测其逻辑冗余和捷径,并在下一次迭代中引导QA合成智能体。通过这种方式,三个智能体自动协作,合成高度复杂、高质量的QA对。

#### 种子实体。

合成时间新鲜且逻辑复杂的QA对需要倾向于涉及新鲜知识的种子实体。我们不是从静态知识图谱中收集实体——这有使用陈旧事实的风险——而是通过实时网络检索收集种子实体。具体来说,我们预定义了9个核心领域(例如,科学、经济和地理)和50个细分子领域。对于每个子领域,我们将一个先进的LLM(即DeepSeek-V3.2︎Liu等人 (2025))配备搜索工具,聚合该子领域中高覆盖率新闻或官方网站上最新出现的实体。这个过程产生了大约50K个种子实体,记为E。种子实体收集的示例见附录A.1。

#### QA合成智能体。

对于给定的种子实体e∈E,QA合成智能体迭代地从实时网络中挖掘信息,以构建一个QA对⟨q,a⟩。整个合成过程可以表述为一个*m*步迭代链:

e → ⟨q_e^(1), a_e^(1)⟩ → ⟨q_e^(2), a_e^(2)⟩ → ... → ⟨q_e^(m), a_e^(m)⟩   (1)

其中q_e^(t), a_e^(t)分别表示在第*t*次迭代中生成的问题及其答案。具体来说,该智能体在每个迭代中涉及两个子步骤:(1) **网络信息收集**:智能体通过与网络工具的多轮交互收集信息:一个*搜索*工具使用Google搜索引擎检索信息,和一个*访问*工具从特定网页提取目标信息。在这多轮交互过程中,我们鼓励智能体收集*新鲜*知识,定义为在指定时间戳*t*之后变得可用的信息。²²²在本文中,我们将*t*设为2026年1月1日,并且可以轻松调整为其他时间戳(例如,特定LLM的训练截止日期)。然后智能体将收集到的知识提炼成一个证据列表,记为E={ε₁, ε₂, ..., εₙ},其中每个εᵢ表示一个简洁的知识陈述(例如,实体eᵢ具有某些特定属性)。(2) **QA对构建**:利用证据列表E,智能体整合这些证据以合成一个复杂的QA对⟨q_e^(t), a_e^(t)⟩。理想情况下,E中的所有证据都是新鲜知识,确保合成的q_e^(t)免于数据污染,因为它完全超出搜索智能体的参数化记忆。然而,新鲜知识在实时网络上出现的频率远低于非新鲜知识(即时间戳*t*之前已有的信息)。因此,尽管我们鼓励智能体收集新鲜知识,但E不可避免地包含非新鲜知识。如果我们严格要求所有证据都是新鲜知识,则E的规模将过于有限,无法合成复杂问题。因此,我们允许E中包含一些非新鲜知识,并要求智能体将每个εᵢ分类为新鲜或非新鲜。为了避免由E中的非新鲜知识导致的过度覆盖的答案,我们限制最终答案必须基于新鲜知识。通过这种方式,生成了一个初步问题q̂_e^(t)及其答案a_e^(t)。为了进一步提高q̂_e^(t)的难度,我们遵循Li等人 (2025)和Lu等人 (2025)的做法,混淆q̂_e^(t)中的特征和关系(如模糊的时间引用和非特定描述符),以获得最终问题q_e^(t)。QA合成智能体在这两个子步骤中使用的提示见附录A.2。

相似文章

BrowseComp:网页浏览智能体基准测试

OpenAI Blog

OpenAI 发布了 BrowseComp,这是一个包含 1,266 个具有挑战性问题的基准测试,旨在衡量 AI 智能体在互联网上定位难以找到信息的能力,该基准已在其简易评估 GitHub 仓库中发布。

LoHoSearch:超越人类难度上限的长时域搜索智能体基准

arXiv cs.CL

LoHoSearch是一个用于评估长时域搜索智能体的新基准,基于包含700万维基百科实体的知识图谱构建。它引入了具有大搜索空间和结构复杂性的问题,以超越人类编写的难度上限,并显示出最佳模型仅达到34.74%的准确率。