EvoBrowseComp:面向演进知识的搜索智能体基准测试

Hugging Face Daily Papers 论文

摘要

EvoBrowseComp是一个演进式基准测试集,包含800个无污染的问题,用于评估搜索智能体,旨在通过三智能体框架防止参数记忆并保持时间新鲜度。

搜索智能体——通过搜索工具增强的大型语言模型——加剧了对面向未来的评估基准的需求。现有的基准测试集如BrowseComp依赖静态知识,使其容易受到测试集污染和参数记忆的影响。因此,模型可以通过事实回忆而非真正检索来获得高分,通过推理捷径掩盖了真正的浏览能力。 在本文中,我们介绍了EvoBrowseComp,一个包含400个英文和400个中文无污染复杂问题的演进式基准测试集,通过实时网络遍历合成。为了收集这些问题,我们设计了一个三智能体协作框架:(1) 一个问答合成智能体,从实时网络检索最新知识以合成问答对;(2) 一个信息过滤智能体,根据可信度和流行度过滤检索到的知识,以阻止参数捷径;(3) 一个高层引导智能体,将问题形式化为推理图,以减少合成问答对中的逻辑冗余和捷径。由于该框架支持全自动合成,EvoBrowseComp可以定期更新以防止数据污染并保持时间新鲜度。大量实验证实了其极高的难度,需要广泛的横向搜索。它建立了一个可扩展的范式,用于可自动更新、高难度的基准测试,与不断演进的世界知识和不断进步的智能体能力保持同步。
查看原文
查看缓存全文

缓存时间: 2026/06/12 06:51

论文页面 - EvoBrowseComp:面向演化知识评估搜索代理的基准测试

来源:https://huggingface.co/papers/2606.13120

摘要

EvoBrowseComp 是一个演进的基准测试,包含 800 个无污染问题,通过三智能体框架合成,确保时间新鲜性并防止搜索代理评估中的参数记忆。

搜索代理(https://huggingface.co/papers?q=Search%20Agents)——即配备搜索工具的大型语言模型(https://huggingface.co/papers?q=large%20language%20models)——加剧了对面向未来的评估基准的需求。现有基准如 BrowseComp(https://huggingface.co/papers?q=BrowseComp)依赖静态知识,容易受到测试集污染和参数记忆(https://huggingface.co/papers?q=parametric%20memorization)的影响。因此,模型可以通过事实回忆而非真正的检索获得高分,从而通过推理捷径掩盖真实的浏览能力。在本文中,我们引入了 EvoBrowseComp(https://huggingface.co/papers?q=BrowseComp),这是一个演进的基准测试,包含 400 个英文和 400 个中文的无污染(https://huggingface.co/papers?q=contamination-free)复杂问题,通过实时网络遍历(https://huggingface.co/papers?q=live-web%20traversal)合成。为了收集这些问题,我们设计了一个三智能体协作框架:(1)问题生成智能体(https://huggingface.co/papers?q=QA%20synthesis%20agent),从实时网络中检索最新知识以合成问答对;(2)信息过滤智能体(https://huggingface.co/papers?q=information%20filtering%20agent),根据可信度和流行度过滤检索到的知识,以阻断参数捷径;(3)高层指导智能体(https://huggingface.co/papers?q=high-level%20guidance%20agent),将问题形式化为推理图(https://huggingface.co/papers?q=reasoning%20graphs),以减少合成问答对中的逻辑冗余和捷径。由于该框架支持完全自动化合成(https://huggingface.co/papers?q=automated%20synthesis),EvoBrowseComp 可以定期更新,以防止数据污染并保持时间新鲜性(https://huggingface.co/papers?q=temporal%20freshness)。大量实验证实其难度极大,需要广泛的横向搜索。它建立了一种可扩展的范式,用于自动更新、高难度的基准测试,能够跟上不断变化的世界知识和不断进步的智能体能力。

查看 arXiv 页面(https://arxiv.org/abs/2606.13120)查看 PDF(https://arxiv.org/pdf/2606.13120)项目页面(https://huggingface.co/datasets/Krystalan/EvoBrowseComp)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.13120)

在你的智能体中获取此论文:

hf papers read 2606.13120

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型与此论文关联

请在模型 README.md 中引用 arxiv.org/abs/2606.13120 以从此页面链接。

引用此论文的数据集0

没有数据集与此论文关联

请在数据集 README.md 中引用 arxiv.org/abs/2606.13120 以从此页面链接。

引用此论文的 Spaces0

没有 Space 与此论文关联

请在 Space README.md 中引用 arxiv.org/abs/2606.13120 以从此页面链接。

包含此论文的收藏0

没有收藏包含此论文

将此论文添加至收藏(https://huggingface.co/new-collection)以从此页面链接。

相似文章

EvoBrowseComp:面向演进知识的搜索代理基准测试

arXiv cs.CL

本文介绍了EvoBrowseComp,这是一个动态基准测试,包含400个英文和400个中文复杂问题,通过实时网络遍历合成,用于评估搜索代理,避免测试集污染,确保对参数记忆的鲁棒性。

BrowseComp:网页浏览智能体基准测试

OpenAI Blog

OpenAI 发布了 BrowseComp,这是一个包含 1,266 个具有挑战性问题的基准测试,旨在衡量 AI 智能体在互联网上定位难以找到信息的能力,该基准已在其简易评估 GitHub 仓库中发布。

EvoMaster:构建可进化大规模自主科学智能体的基础框架

Hugging Face Daily Papers

# 论文页面 - EvoMaster:构建可进化大规模自主科学智能体的基础框架 来源:[https://huggingface.co/papers/2604.17406](https://huggingface.co/papers/2604.17406) 作者:,,,,,,,,,,,,,,,,,,,,, ## 摘要 EvoMaster 是一个可扩展、自我进化的智能体框架,专为大规模科学发现设计,支持在实验周期中迭代优化假设并持续积累知识。大语言模型与智能体的融合正在催生“智能体科学”新时代。