EvoBrowseComp：面向演进知识的搜索智能体基准测试

Hugging Face Daily Papers 2026/06/11 00:00 论文

benchmark search-agents large-language-models contamination-free evolving-knowledge evaluation browsing

摘要

EvoBrowseComp是一个演进式基准测试集，包含800个无污染的问题，用于评估搜索智能体，旨在通过三智能体框架防止参数记忆并保持时间新鲜度。

搜索智能体——通过搜索工具增强的大型语言模型——加剧了对面向未来的评估基准的需求。现有的基准测试集如BrowseComp依赖静态知识，使其容易受到测试集污染和参数记忆的影响。因此，模型可以通过事实回忆而非真正检索来获得高分，通过推理捷径掩盖了真正的浏览能力。在本文中，我们介绍了EvoBrowseComp，一个包含400个英文和400个中文无污染复杂问题的演进式基准测试集，通过实时网络遍历合成。为了收集这些问题，我们设计了一个三智能体协作框架：(1) 一个问答合成智能体，从实时网络检索最新知识以合成问答对；(2) 一个信息过滤智能体，根据可信度和流行度过滤检索到的知识，以阻止参数捷径；(3) 一个高层引导智能体，将问题形式化为推理图，以减少合成问答对中的逻辑冗余和捷径。由于该框架支持全自动合成，EvoBrowseComp可以定期更新以防止数据污染并保持时间新鲜度。大量实验证实了其极高的难度，需要广泛的横向搜索。它建立了一个可扩展的范式，用于可自动更新、高难度的基准测试，与不断演进的世界知识和不断进步的智能体能力保持同步。

查看原文

查看缓存全文

缓存时间: 2026/06/12 06:51

论文页面 - EvoBrowseComp：面向演化知识评估搜索代理的基准测试

来源：https://huggingface.co/papers/2606.13120

摘要

EvoBrowseComp 是一个演进的基准测试，包含 800 个无污染问题，通过三智能体框架合成，确保时间新鲜性并防止搜索代理评估中的参数记忆。

搜索代理（https://huggingface.co/papers?q=Search%20Agents）——即配备搜索工具的大型语言模型（https://huggingface.co/papers?q=large%20language%20models）——加剧了对面向未来的评估基准的需求。现有基准如 BrowseComp（https://huggingface.co/papers?q=BrowseComp）依赖静态知识，容易受到测试集污染和参数记忆（https://huggingface.co/papers?q=parametric%20memorization）的影响。因此，模型可以通过事实回忆而非真正的检索获得高分，从而通过推理捷径掩盖真实的浏览能力。在本文中，我们引入了 EvoBrowseComp（https://huggingface.co/papers?q=BrowseComp），这是一个演进的基准测试，包含 400 个英文和 400 个中文的无污染（https://huggingface.co/papers?q=contamination-free）复杂问题，通过实时网络遍历（https://huggingface.co/papers?q=live-web%20traversal）合成。为了收集这些问题，我们设计了一个三智能体协作框架：（1）问题生成智能体（https://huggingface.co/papers?q=QA%20synthesis%20agent），从实时网络中检索最新知识以合成问答对；（2）信息过滤智能体（https://huggingface.co/papers?q=information%20filtering%20agent），根据可信度和流行度过滤检索到的知识，以阻断参数捷径；（3）高层指导智能体（https://huggingface.co/papers?q=high-level%20guidance%20agent），将问题形式化为推理图（https://huggingface.co/papers?q=reasoning%20graphs），以减少合成问答对中的逻辑冗余和捷径。由于该框架支持完全自动化合成（https://huggingface.co/papers?q=automated%20synthesis），EvoBrowseComp 可以定期更新，以防止数据污染并保持时间新鲜性（https://huggingface.co/papers?q=temporal%20freshness）。大量实验证实其难度极大，需要广泛的横向搜索。它建立了一种可扩展的范式，用于自动更新、高难度的基准测试，能够跟上不断变化的世界知识和不断进步的智能体能力。

查看 arXiv 页面（https://arxiv.org/abs/2606.13120）查看 PDF（https://arxiv.org/pdf/2606.13120）项目页面（https://huggingface.co/datasets/Krystalan/EvoBrowseComp）添加至收藏（https://huggingface.co/login?next=%2Fpapers%2F2606.13120）

在你的智能体中获取此论文：

hf papers read 2606.13120

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型与此论文关联

请在模型 README.md 中引用 arxiv.org/abs/2606.13120 以从此页面链接。

引用此论文的数据集0

没有数据集与此论文关联

请在数据集 README.md 中引用 arxiv.org/abs/2606.13120 以从此页面链接。

引用此论文的 Spaces0

没有 Space 与此论文关联

请在 Space README.md 中引用 arxiv.org/abs/2606.13120 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加至收藏（https://huggingface.co/new-collection）以从此页面链接。

EvoBrowseComp：面向演进知识的搜索智能体基准测试

论文页面 - EvoBrowseComp：面向演化知识评估搜索代理的基准测试

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏0

相似文章

EvoBrowseComp：面向演进知识的搜索代理基准测试

BrowseComp：网页浏览智能体基准测试

EvoSci：一种受生物启发的多智能体框架，用于科学发现的演化

K-BrowseComp：基于韩国语境的网络浏览智能体基准测试

EvoMaster：构建可进化大规模自主科学智能体的基础框架

提交意见反馈