LoHoSearch:超越人类难度上限的长时域搜索智能体基准

arXiv cs.CL 论文

摘要

LoHoSearch是一个用于评估长时域搜索智能体的新基准,基于包含700万维基百科实体的知识图谱构建。它引入了具有大搜索空间和结构复杂性的问题,以超越人类编写的难度上限,并显示出最佳模型仅达到34.74%的准确率。

arXiv:2606.12837v1 公告类型:新 摘要:以BrowseComp为代表的搜索智能体基准在过去一年中迅速饱和,最强模型已超过90%的准确率。由于这些基准主要由人类编写,标注者缺乏对实体统计的全局视角,无法系统性地最大化搜索空间大小和结构复杂性。这造成了难以突破的难度上限。为了解决这个问题,我们引入了LoHoSearch(长时域搜索智能体),一个包含544个跨11个领域的人工验证问题的挑战性基准。LoHoSearch通过自动流水线构建,该流水线基于覆盖超过700万维基百科实体的知识图谱,选择具有大搜索空间的关系,并将其组合成结构复杂且具有知识图谱验证的唯一答案的问题。我们的评估显示,即使是最强的模型也仅达到34.74%的准确率,现有上下文管理策略(最佳+6.8%)带来的增益远小于先前基准。LoHoSearch为评估搜索智能体中的长时域推理和上下文管理提供了更高的标准。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:50

# LoHoSearch:超越人类难度上限的长周期搜索智能体基准
来源:https://arxiv.org/html/2606.12837
赵嘉瑞\*†\dagger,张荣志\*,刘令川†\dagger,杨浩,蔡勋亮,苏曦 美团 \{zhaojiarui02,liulingchuan\}@meituan.com

###### 摘要

以BrowseComp为代表的搜索智能体基准在过去一年中迅速饱和,最强模型的准确率已超过90%。由于这些基准主要由人工编写,标注者缺乏对实体统计的全局视角,无法系统地最大化搜索空间大小和结构复杂度。这形成了一个难以突破的难度天花板。为了解决这个问题,我们提出了 **LoHoSearch**(长周期搜索智能体),一个包含544个人工验证问题、涵盖11个领域的高难度基准。LoHoSearch通过一个基于知识图谱的自动化流水线构建,该图谱覆盖超过700万个维基百科实体。流水线会选择具有大搜索空间的关系,并将其组装成结构复杂、经知识图谱验证答案唯一的问题。我们的评估表明,即使是最强模型也仅达到34.74%的准确率,现有的上下文管理策略(最佳提升+6.8%)带来的收益远小于在先前基准上的表现。LoHoSearch为评估搜索智能体中的长周期推理和上下文管理提供了一个更具挑战性的标准。

LoHoSearch:超越人类难度上限的长周期搜索智能体基准

赵嘉瑞\*†\dagger,张荣志\*,刘令川†\dagger,杨浩,蔡勋亮,苏曦 美团 \{zhaojiarui02,liulingchuan\}@meituan.com

††脚注文本:*这些作者对这项工作贡献相同。††脚注文本:†通讯作者。

## 1 引言

自2025年4月以来,以BrowseComp(Wei等人,2025 (https://arxiv.org/html/2606.12837#bib.bib3))为代表的一类具有挑战性但易于验证的基准,已迅速成为衡量搜索智能体能力的事实标准。然而,如图1 (https://arxiv.org/html/2606.12837#S1.F1)所示,模型在BrowseComp上的性能在短短十个月内从30%飙升至90%以上,该基准正在迅速失去其区分能力(Anthropic,2026a (https://arxiv.org/html/2606.12837#bib.bib23))。根本原因在于这些基准主要由人工编写:标注者倾向于选择他们熟悉的实体和关系,这些实体和关系通常具有高流行度和直接联系,导致大多数问题仅需几步检索即可回答。这形成了一个难以进一步提高的难度天花板,并且随着模型能力的持续提升,这一趋势只会加剧。

参见图注 图1:2025年8月至2026年5月期间,各主要模型系列在BrowseComp上的准确率提升曲线。

搜索问题的难度由两个核心因素决定:(1)每个约束条件的搜索空间大小,即满足单一条件的候选实体数量。更大的搜索空间迫使智能体去验证和排除更多候选者。(2)结构复杂度,即为了唯一确定答案而必须同时满足的约束条件数量。更高的结构复杂度意味着必须检查更多约束来排除每个候选者,从而大幅提升整体求解难度。虽然推理深度(到达最终答案所需的知识跳数)也影响难度,但它是最容易控制的,并且现有基准已很好地解决了这个问题(Trivedi等人,2022 (https://arxiv.org/html/2606.12837#bib.bib4);Krishna等人,2025 (https://arxiv.org/html/2606.12837#bib.bib15))。当搜索空间大小和结构复杂度都很大时,智能体的搜索过程会变得更长,对推理和上下文管理提出了更高的要求。然而,人类标注者缺乏对实体统计的全局视角,无法在两个维度上系统地最大化难度。

为了解决这个问题,我们引入了LoHoSearch,这是一个通过基于知识图谱的自动化流水线构建的基准。我们从维基百科开始,构建了一个涵盖超过700万个实体的大规模知识图谱,在全局视角下选择具有真正大搜索空间的关系,并将其组装成结构复杂的子图,这些子图的答案经过知识图谱验证具有唯一性。每个子图随后由语言模型转化为自然语言问题,并经过多轮自动验证和人工审核以确保正确性和答案唯一性。最终基准包含544个人工验证的问题,涵盖11个主题领域。我们的主要贡献如下:

*   • 我们提出了一个基于知识图谱的自动问答构建流水线,可以系统地控制搜索空间大小和结构复杂度,突破了人工编写的难度天花板。
*   • 我们引入了LoHoSearch基准。即使是最强模型也仅达到34.7%的准确率,正确的推理轨迹需要的工具调用次数是BrowseComp的1.7倍,为搜索智能体建立了更具区分度的评估标准。
*   • 我们的基准揭示了现有上下文管理策略在高难度场景下的局限性。最佳策略仅带来6.8%的提升,远低于在现有基准上的收益,表明LoHoSearch为未来研究提供了一个更具挑战性的试验场。

## 2 数据合成

参见图注 图2:LoHoSearch流水线概览。

我们的流水线分为四个阶段(如图2 (https://arxiv.org/html/2606.12837#S2.F2)所示):知识图谱构建、子图采样、问答生成与验证,以及后处理过滤与人工审核。

### 2.1 知识图谱构建

我们从完整的英文维基百科数据转储构建知识图谱:每个页面对应一个实体(节点),页面正文中指向其他维基百科页面的超链接作为有向边。我们将每个实体的类型定义为其Wikidata(Vrandečić 和 Krötzsch,2014 (https://arxiv.org/html/2606.12837#bib.bib32))P31(instance_of)类别,其流行度定义为入度,两者均用于后续阶段。生成的知识图谱包含大约762万个实体和2.65亿条有向边。

### 2.2 子图采样

我们采用两种互补的子图结构:树状结构和图状结构。树状结构的难度主要源于搜索空间大小,而图状结构通过实体间的循环依赖和交叉约束进一步增加了结构复杂度。两种结构都要求所有组成实体具有低流行度和适中的页面长度,确保实体不易被推断。此外,我们在采样过程中平衡答案实体的类型分布,确保涵盖不同主题领域。

我们首先定义一个关系的搜索空间。给定一条从实体 \(A\) 指向实体 \(B\) 的有向边,其搜索空间定义为:

\[
\mathcal{S}(A\rightarrow B)=\{e \mid \text{type}(e)=\text{type}(A), (e\rightarrow B) \in \mathcal{G}\}
\]

即在知识图谱 \(\mathcal{G}\) 中,所有与 \(A\) 类型相同并且也有一条指向 \(B\) 的有向边的实体集合。更大的搜索空间意味着满足给定关系约束的候选实体更多,使得智能体更难以通过此关系识别出 \(A\)。

#### 2.2.1 树状子图采样

树状结构使用一个低流行度实体作为根节点(即答案),它连接到多个中间实体,每个中间实体又进一步连接几个叶节点。采样逐层进行:

*   **第一层扩展**。从根节点的关系中,选择 \(N\) 条指向中间实体的边,需满足:
    *   每条关系的搜索空间大小 \(|\mathcal{S}| > \tau\);
    *   任意 \(N-1\) 条关系的候选集合的交集大小 \(> 1\)。即,如果移除任何一条关系,答案将不再唯一确定,确保每条关系都是必要的;
    *   所有 \(N\) 条关系的候选集合的交集正好等于 \(\{\text{root}\}\),保证答案在知识图谱层面的唯一性。

*   **第二层扩展**。对于每个中间实体,选择 1 到 \(M\) 条指向叶节点的边,需满足:
    *   每条关系的搜索空间大小 \(|\mathcal{S}| > \tau\);
    *   \(M\) 条关系的候选集合交集大小 \(> 1\),确保中间实体本身无法被直接推断;
    *   我们将此交集中的候选者(除了当前中间实体)称为伪候选者。我们进一步要求,没有任何伪候选者与其余的中间实体组合能唯一确定答案——这保证了答案的唯一性。

实践中,我们设置 \(N=3\),\(M=2\),\(\tau=3\)。

#### 2.2.2 图状子图采样

与树状结构的层次化扩展不同,图状子图在实体间包含大量交叉边,并可能形成环,使得问题约束无法分解为独立的子问题。在采样过程中,我们首先选择一个低流行度实体作为种子(即答案),然后贪心地扩展,直到子图达到最多10个实体:在每一步,我们优先选择与当前子图连接边数最多,并且相应边具有最大搜索空间的候选者。子图必须满足节点类型多样性、足够的边数和连通性。

构建完成后,通过穷举回溯搜索验证唯一性:我们在全图中搜索另一组满足相同实体类型和有向邻接关系的实体集;如果不存在,则确认唯一性。此外,我们要求种子实体具有足够多的同类型混淆候选者,这些候选者与子图中所有邻居类型的实体相连,以防止通过类型枚举进行暴力求解。

### 2.3 问答生成与验证

此阶段将每个采样子图转换为自然语言问题。具体来说,对于子图中的每条边,语言模型从源实体的维基百科页面中提取一个模糊化后的关系描述;对于树状结构中的叶节点,还会额外提取1-2个属性描述。

提取后,我们应用基于搜索的验证以确保充分的模糊化:每条关系必须不能通过搜索引擎直接定位,也不能被大语言模型推断出来。为防止多条关系组合后变得易于推断,我们对同一实体的所有关系进行联合验证。

验证通过后,我们将所有关系和属性组装成一个隐藏了实体名称的结构化描述,并让大语言模型将其转换为自然语言问题。生成的问题需经过两轮自动验证:

*   **子图覆盖检查**:验证问题是否忠实地涵盖了输入子图中的所有关系和属性,没有遗漏、添加或扭曲。
*   **答案满足性检查**:一个搜索智能体验证标准答案确实满足问题中所述的所有条件。

此阶段所有基于大语言模型的步骤均使用DeepSeek-V3.2(DeepSeek-AI等人,2025 (https://arxiv.org/html/2606.12837#bib.bib33))进行。

### 2.4 后处理过滤与人工审核

在问答生成阶段之后,我们会对所有问题进行多轮过滤:

*   **唯一性验证**。尽管子图采样阶段保证了结构唯一性,但从子图到自然语言的转换可能会引入歧义。我们部署多个不同能力水平的搜索智能体独立尝试每个问题,收集候选答案,并自动判断是否存在满足所有条件的候选者。发现存在有效替代答案的问题将被过滤掉。

*   **难度过滤**。为了校准基准的难度,我们让一个基于DeepSeek-V3.2的搜索智能体多次独立尝试每个问题。在多次尝试中均被正确回答的问题将被过滤掉,只保留那些具有真正搜索难度的问题。

*   **人工审核**。在所有自动过滤之后,剩余的问题将提交给专业标注人员进行手动验证。标注人员从答案正确性、答案唯一性、条件间的逻辑连贯性、语言流畅性和信息冗余等多个维度评估每个问题,确保最终的问题既严谨又自然。

### 2.5 数据统计

表1 (https://arxiv.org/html/2606.12837#S2.T1)总结了LoHoSearch的关键统计数据。数据集包含544个人工验证的问题。图状子图明显比树状子图更密集,节点更多,边数几乎翻倍,反映了其更高的结构复杂度。如图3 (https://arxiv.org/html/2606.12837#S2.F3)所示,问题涵盖11个主题领域,包括音乐、地理与地点、电影与电视、体育等,确保了知识领域的广泛覆盖。

表1:LoHoSearch的数据集统计。

参见图注 图3:LoHoSearch的领域分布。数据集包含544个样本,涵盖11个类别。

表2:在LoHoSearch上的性能(%)。得分报告了在544个样本数据集上的平均正确率。校准误差衡量了每个模型的置信度校准。最佳结果以**粗体**显示。† 表示模型在评估过程中遇到服务不稳定或安全拒绝的情况。

在质量保证方面,75.5%的自动构建问题直接通过了人工审核,22.3%在标注人员进行轻微措辞调整后(例如,纠正不自然的措辞或移除多余的修饰语)被接受,只有2.2%因逻辑不一致等关键问题而被丢弃,这证明了自动化流水线的高生成质量。在答案唯一性方面,70.8%的问题被标注人员确认具有确定唯一的答案。对于剩下的29.2%,标注人员无法最终排除替代答案,但在彻底搜索后也未发现任何替代候选者。我们注意到,随着问题难度的增加,即使对人类标注人员来说,验证唯一性本身也变得极具挑战性,这进一步证明了LoHoSearch问题的内在复杂性。

## 3 实验

### 3.1 实验设置

我们根据每个主要模型系列在BrowseComp上的结果,选择其表现最好的模型作为评估目标;绝大多数是各自系列中的最新发布版本。评估模型的完整列表详见表2 (https://arxiv.org/html/2606.12837#S2.T2)。

每个模型配备两个工具:(1)`search`,使用传统搜索引擎(如Google)执行关键词查询;(2)`browse`,通过给定的URL从一个或多个指定网页检索详细内容。我们采用与BrowseComp相同的系统提示来指导所有模型。对于支持思考和非思考模式或可调节思考努力的模型,我们采用其官方默认设置。为了在可能具有不同最优温度设置的模型之间进行公平比较,我们统一将温度设为0。

相似文章

EvoBrowseComp:面向演进知识的搜索代理基准测试

arXiv cs.CL

本文介绍了EvoBrowseComp,这是一个动态基准测试,包含400个英文和400个中文复杂问题,通过实时网络遍历合成,用于评估搜索代理,避免测试集污染,确保对参数记忆的鲁棒性。

LongDS-Bench:论长时域智能体数据分析的失败

arXiv cs.LG

介绍LongDS,一个用于评估LLM智能体在长时域、多轮数据分析任务上的基准。评估表明,即使最佳模型也仅达到48.45%的准确率,性能随轮次急剧下降,凸显出维护分析状态是关键瓶颈。

@dair_ai:关于长时程智能体的杰出论文(建议收藏)——类似人类,如何让智能体在困难任务中坚持下去?

X AI KOLs Following

AutoLab 是一个新基准测试,针对 36 个由专家精心设计的长时程任务(系统优化、模型开发、CUDA 内核、谜题),对 17 个前沿模型进行评估。研究发现,决定成功的关键因素是持久性——而非初始尝试的质量。Claude-opus-4.6 在所有类别中名列前茅,而大多数其他模型要么过早终止,要么在几乎没有进展的情况下耗尽了预算。