BrowseComp:网页浏览智能体基准测试
摘要
OpenAI 发布了 BrowseComp,这是一个包含 1,266 个具有挑战性问题的基准测试,旨在衡量 AI 智能体在互联网上定位难以找到信息的能力,该基准已在其简易评估 GitHub 仓库中发布。
BrowseComp:网页浏览智能体基准测试。
查看缓存全文
缓存时间: 2026/04/20 14:48
# BrowseComp:浏览代理基准测试
来源:https://openai.com/index/browsecomp/
一个简单而具有挑战性的基准测试,用于测量AI代理定位难以查找信息的能力。
能够通过浏览互联网来获取信息的AI代理正变得越来越有用和重要。一个高效的浏览代理应该能够定位难以查找的信息,这个过程可能需要浏览数十甚至数百个网站。现有的基准测试(如SimpleQA)用于测量模型检索基本独立事实的能力,但这些基准测试已经被具有快速浏览工具(例如具有浏览功能的GPT-4o)的模型所饱和。为了测量AI代理定位互联网上难以查找的、相互关联的信息的能力,我们开源了一个名为BrowseComp("浏览竞赛")的新基准测试,包含1,266个具有挑战性的问题。该基准测试可在OpenAI的simple evals GitHub仓库(https://github.com/openai/simple-evals)中获得,你可以在此处(http://cdn.openai.com/pdf/5e10f4ab-d6f7-442e-9508-59515c65e35d/browsecomp.pdf)阅读我们的研究论文。
我们创建BrowseComp作为一个对模型具有挑战性且易于验证的浏览基准测试。评估大型语言模型的主要挑战之一是它们默认会给出冗长的开放式响应。我们专注于答案简短且原则上只有一个正确答案的问题。这种专注于简短答案意味着不清楚BrowseComp上的性能与实际用户分布(开放式)上的性能的相关程度。我们接受这种权衡,因为给简短答案评分很简单,使基准测试易于使用。
遵循OpenAI之前的事实基准测试SimpleQA(https://openai.com/index/introducing-simpleqa/)的指导方针,我们要求人类训练员创建具有挑战性的、寻求事实的问题,这些问题具有单一的、无可争议的、简短的答案,不会随时间变化,并由证据支持。BrowseComp的区别在于训练员创建的问题极具挑战性。我们使用了三项检查来确保问题具有足够的挑战性:
- 当时现有的模型无法解决这个问题:训练员被要求验证GPT-4o(有和没有浏览)、o1以及早期版本的深度研究模型无法解决这些问题。
- 训练员被要求进行五次简单搜索,并检查搜索引擎结果第一页上是否有答案。
- 训练员被要求创建足够具有挑战性的任务,使得另一个人无法在十分钟内解决。这没有严格执行,但对于部分问题,第二个训练员尝试查找答案。创建的任务被解决超过40%的训练员被要求修改他们的任务。
为了创建具有挑战性的问题,我们鼓励训练员从事实开始,然后创建一个"反向"问题,其中答案难以找到但易于验证。训练员会从一个"种子"(可能是一个人、事件或工件)开始,找到几个具有大搜索空间的特征,并从中创建一个问题。我们给出的示例问题是:
*给出在2018-2023年间EMNLP会议上发表的科学论文的标题,其中第一作者在达特茅斯学院完成本科,第四作者在宾夕法尼亚大学完成本科。(答案:Frequency Effects on Syntactic Rule Learning in Transformers, EMNLP 2021)*
通过几次网络搜索可以轻松验证这个问题的答案,但很难找到答案,因为蛮力搜索需要检查数千篇论文并查看每篇论文作者的背景。难以解决但易于验证的问题("验证的不对称性")对基准测试很有好处,因为它们既具有挑战性,也便于评分。
尽管BrowseComp很简单,但它测量了AI代理执行有用浏览的能力:
- 要获得正确答案,模型必须能够有效地推理互联网上内容的事实性。
- 因为答案难以找到,在BrowseComp上表现良好需要持续性和深度的浏览能力。
- 许多答案使用蛮力方法会太耗时(或不可能)找到。因此,为了在合理的时间内完成,模型必须在搜索中具有创意以找到正确答案。
BrowseComp可以被看作浏览代理的不完整但有用的基准测试。虽然BrowseComp回避了真实用户查询分布的挑战,如生成长答案或解决歧义,但它测量了在查找信息时展现持续性和创意的重要核心能力。作为一个宽松的类比,在CodeForces等编程竞赛中表现出色的模型展示了可能很好地推广到其他编码任务的高编码能力,但这并非保证。类似地,要解决BrowseComp,模型必须在定位难以查找的信息片段方面非常熟练,但这不保证它推广到所有需要浏览的任务。
在创建BrowseComp基准测试时,我们鼓励训练员创建关于他们个人感兴趣的主题的问题,希望创建关于个人兴趣的数据点会导致更具吸引力的体验和更高质量的数据。主题分布如下面的饼图所示。
作为BrowseComp数据集具有挑战性程度的一个指标,我们要求人类训练员也尝试解决BrowseComp问题。这些训练员来自创建问题的训练员组,但训练员无法解决他们创建的相同问题。人类训练员无法获得问题的正确答案,被要求在不使用AI助手的情况下完成任务(具体来说,不使用ChatGPT、Claude、Perplexity、Grok或Gemini)。由于某些问题极其困难,如果训练员在搜索两小时内无法解决,我们允许训练员将问题标记为无法解决并继续。如下所示,训练员解决了29.2%的问题,在解决的问题中,训练员的答案与原始参考答案匹配率为86.4%。
训练员自我报告了回答问题所花费的时间。下面的直方图显示了可解决和无法解决问题的时间分布。对于人类能够解决的问题,我们看到时间范围—— 一些问题可以在不到一小时的搜索内解决,许多问题可以解决但需要花费两到三小时的研究。对于无法解决的问题,大多数训练员决定在尝试该问题约两小时后放弃。
我们在BrowseComp上评估了一系列模型,包括没有浏览功能的模型——GPT-4o、GPT-4.5和OpenAI o1(中等)——以及具有浏览功能的GPT-4o和Deep Research,一个为持续网络浏览而明确训练的代理模型。如下表所示,GPT-4o和GPT-4.5的准确率接近零,突出了基准测试的难度:没有强大的推理或工具使用,模型无法定位BrowseComp针对的那种晦涩的、多跳事实。
为GPT-4o启用浏览导致准确率小幅提高(从0.6%到1.9%),但性能仍然很低。这表明仅有浏览是不够的——模型还必须能够进行战略性推理、识别相关搜索路径并解释检索的内容。同时,OpenAI o1虽然没有浏览能力但具有更强的推理能力,达到了明显更高的准确率,这表明某些BrowseComp答案可以通过内部知识推理而得出。总体而言,这些结果表明工具使用和推理都对BrowseComp的性能有意义的贡献。
Deep Research明显优于所有其他模型,解决了大约一半的问题。它能够自主搜索网络、评估和综合来自多个来源的信息以及调整搜索策略,使其能够处理其他方式无法解决的问题。通过综合大量在线信息、根据它遇到的情况进行调整并引用每一个声明,它特别有效地回答了需要浏览众多网站的利基、非直观问题——正是BrowseComp设计测量的那种挑战。
代理的一个关键特性是性能随推理时使用的计算量而扩展,如OpenAI o1在AIME(https://openai.com/index/learning-to-reason-with-llms/)和OpenAI o3-mini低/中/高(https://openai.com/index/openai-o3-mini/)上之前所示。类似地,我们应该期望额外的推理时计算改善BrowseComp上的性能,因为问题需要迭代地浏览大量网站并组合信息。如下面的图表所示,每个点都是使用不同浏览工作量的完整评估运行,我们看到性能随使用的测试时计算量的函数平稳扩展。
除了作为单个模型尝试中使用的计算量函数的更好性能外,我们进一步评估了如果Deep Research模型可以通过多次尝试每个问题并使用各种策略来选择最佳答案来使用更多计算,是否会改善其性能。在这个实验中,我们评估了三种方法来组合模型每个问题的64个采样输出:多数投票、加权投票和最佳N。
- 多数投票选择样本中最常见的答案。
- 在加权投票中,我们零样本提示模型也在每次尝试中产生置信度分数,我们取由每次尝试的置信度分数加权的投票。
- 最佳N选择具有最高置信度分数的单个输出。
如下面的图表所示,这三种方法相比仅使用单次尝试的性能提高了15%到25%。这个实质性的性能改进在某种程度上是预期的,因为BrowseComp是一个比找答案更容易验证的基准测试,所以模型应该能够判断何时给出正确答案。在这些方法中,最佳N始终达到最高准确率。这个结果表明Deep Research模型经常"知道"它何时是对的。
作为进一步分析,我们检查了Deep Research和OpenAI o1在BrowseComp基准测试的所有1,266个任务中的通过率分布,使用每个问题64次试验,以更好地理解任务难度。如下面的图表所示,Deep Research完美解决了16%的任务(100%通过率)但完全失败了14%(0%通过率),表明任务难度存在很大差距。此外,许多任务介于两个极端之间,表明挑战水平各不相同,模型可能因任务结构和域而陷入困境。
对于Deep Research从未产生正确答案的问题子集,我们进行了后续跟进,通过提示模型使用基本事实答案并要求它定位支持网络证据。在大多数情况下,模型成功了,确认这些问题并非无法解决,只是在没有指导的情况下极其困难。这表明许多BrowseComp任务测试的不仅仅是检索——它们需要战略性的毅力、灵活的搜索重新表述以及在多个来源上组装碎片线索的能力。
BrowseComp评估模型在浏览互联网以搜索难以查找的信息时的表现。虽然BrowseComp不旨在测量常见查询上的性能,但它测量了找到单个目标信息片段的能力,易于评估,并对现有浏览代理具有挑战性。我们希望开源BrowseComp推动更可信和可靠AI的研究,我们邀请研究人员在其上评估AI代理的能力,并向我们提供反馈。
相似文章
K-BrowseComp:基于韩国语境的网络浏览智能体基准测试
介绍了K-BrowseComp,一个包含400个问题的韩国网络浏览智能体基准测试,揭示了与英文基准测试相比存在的显著性能差距,并强调了开发强健的韩国人工智能的必要性。
EvoBrowseComp:面向演进知识的搜索智能体基准测试
EvoBrowseComp是一个演进式基准测试集,包含800个无污染的问题,用于评估搜索智能体,旨在通过三智能体框架防止参数记忆并保持时间新鲜度。
EvoBrowseComp:面向演进知识的搜索代理基准测试
本文介绍了EvoBrowseComp,这是一个动态基准测试,包含400个英文和400个中文复杂问题,通过实时网络遍历合成,用于评估搜索代理,避免测试集污染,确保对参数记忆的鲁棒性。
@ycombinator: StableBrowse 是面向AI代理的新型浏览器层。它能让代理以减少70%的令牌消耗和3-4倍的速度浏览网页。
StableBrowse 是一种新的AI代理浏览器层,通过将网站转换为可重用的执行图,将令牌使用量减少70%,执行速度提升3-4倍。
跨尺度科学挑战的AI智能体基准测试
介绍SciAgentArena,一个约200个任务的基准测试,用于评估真实科学研究中的AI智能体。发现智能体在明确指定的数据分析工作流程中表现有效,但在产生新颖见解和开放式探索方面存在困难。