EvoBrowseComp:面向演进知识的搜索智能体基准测试
摘要
EvoBrowseComp是一个演进式基准测试集,包含800个无污染的问题,用于评估搜索智能体,旨在通过三智能体框架防止参数记忆并保持时间新鲜度。
查看缓存全文
缓存时间: 2026/06/12 06:51
论文页面 - EvoBrowseComp:面向演化知识评估搜索代理的基准测试
来源:https://huggingface.co/papers/2606.13120
摘要
EvoBrowseComp 是一个演进的基准测试,包含 800 个无污染问题,通过三智能体框架合成,确保时间新鲜性并防止搜索代理评估中的参数记忆。
搜索代理(https://huggingface.co/papers?q=Search%20Agents)——即配备搜索工具的大型语言模型(https://huggingface.co/papers?q=large%20language%20models)——加剧了对面向未来的评估基准的需求。现有基准如 BrowseComp(https://huggingface.co/papers?q=BrowseComp)依赖静态知识,容易受到测试集污染和参数记忆(https://huggingface.co/papers?q=parametric%20memorization)的影响。因此,模型可以通过事实回忆而非真正的检索获得高分,从而通过推理捷径掩盖真实的浏览能力。在本文中,我们引入了 EvoBrowseComp(https://huggingface.co/papers?q=BrowseComp),这是一个演进的基准测试,包含 400 个英文和 400 个中文的无污染(https://huggingface.co/papers?q=contamination-free)复杂问题,通过实时网络遍历(https://huggingface.co/papers?q=live-web%20traversal)合成。为了收集这些问题,我们设计了一个三智能体协作框架:(1)问题生成智能体(https://huggingface.co/papers?q=QA%20synthesis%20agent),从实时网络中检索最新知识以合成问答对;(2)信息过滤智能体(https://huggingface.co/papers?q=information%20filtering%20agent),根据可信度和流行度过滤检索到的知识,以阻断参数捷径;(3)高层指导智能体(https://huggingface.co/papers?q=high-level%20guidance%20agent),将问题形式化为推理图(https://huggingface.co/papers?q=reasoning%20graphs),以减少合成问答对中的逻辑冗余和捷径。由于该框架支持完全自动化合成(https://huggingface.co/papers?q=automated%20synthesis),EvoBrowseComp 可以定期更新,以防止数据污染并保持时间新鲜性(https://huggingface.co/papers?q=temporal%20freshness)。大量实验证实其难度极大,需要广泛的横向搜索。它建立了一种可扩展的范式,用于自动更新、高难度的基准测试,能够跟上不断变化的世界知识和不断进步的智能体能力。
查看 arXiv 页面(https://arxiv.org/abs/2606.13120)查看 PDF(https://arxiv.org/pdf/2606.13120)项目页面(https://huggingface.co/datasets/Krystalan/EvoBrowseComp)添加至收藏(https://huggingface.co/login?next=%2Fpapers%2F2606.13120)
在你的智能体中获取此论文:
hf papers read 2606.13120
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型与此论文关联
请在模型 README.md 中引用 arxiv.org/abs/2606.13120 以从此页面链接。
引用此论文的数据集0
没有数据集与此论文关联
请在数据集 README.md 中引用 arxiv.org/abs/2606.13120 以从此页面链接。
引用此论文的 Spaces0
没有 Space 与此论文关联
请在 Space README.md 中引用 arxiv.org/abs/2606.13120 以从此页面链接。
包含此论文的收藏0
没有收藏包含此论文
将此论文添加至收藏(https://huggingface.co/new-collection)以从此页面链接。
相似文章
EvoBrowseComp:面向演进知识的搜索代理基准测试
本文介绍了EvoBrowseComp,这是一个动态基准测试,包含400个英文和400个中文复杂问题,通过实时网络遍历合成,用于评估搜索代理,避免测试集污染,确保对参数记忆的鲁棒性。
BrowseComp:网页浏览智能体基准测试
OpenAI 发布了 BrowseComp,这是一个包含 1,266 个具有挑战性问题的基准测试,旨在衡量 AI 智能体在互联网上定位难以找到信息的能力,该基准已在其简易评估 GitHub 仓库中发布。
EvoSci:一种受生物启发的多智能体框架,用于科学发现的演化
EvoSci提出了一种受生物启发的多智能体框架,将进化算法与知识图谱建模相结合,以迭代生成、评估和完善研究想法,在同行评审评估中取得了最佳性能。
K-BrowseComp:基于韩国语境的网络浏览智能体基准测试
介绍了K-BrowseComp,一个包含400个问题的韩国网络浏览智能体基准测试,揭示了与英文基准测试相比存在的显著性能差距,并强调了开发强健的韩国人工智能的必要性。
EvoMaster:构建可进化大规模自主科学智能体的基础框架
# 论文页面 - EvoMaster:构建可进化大规模自主科学智能体的基础框架 来源:[https://huggingface.co/papers/2604.17406](https://huggingface.co/papers/2604.17406) 作者:,,,,,,,,,,,,,,,,,,,,, ## 摘要 EvoMaster 是一个可扩展、自我进化的智能体框架,专为大规模科学发现设计,支持在实验周期中迭代优化假设并持续积累知识。大语言模型与智能体的融合正在催生“智能体科学”新时代。