超越单语深度研究：使用跨语言BrowseComp-Plus评估智能体与检索器

arXiv cs.CL 2026/06/16 04:00 论文

摘要

介绍XBCP（跨语言BrowseComp-Plus），这是一个用于在跨语言和多语言环境中评估深度研究智能体和检索器的基准。结果表明，当证据与查询语言不同时，性能显著下降，凸显了检索失败以及智能体在整合语言不匹配证据方面的困难。

arXiv:2606.15345v1 公告类型：新 \n摘要：深度研究智能体越来越多地被评估其在搜索证据、对检索来源进行推理以及生成有依据答案方面的能力。然而，现有的浏览基准大多假设用户查询和支持证据使用同一种语言，这留下了疑问：当相关证据以另一种语言出现时，智能搜索系统是否仍能运作。我们引入了XBCP（跨语言BrowseComp-Plus），这是一个受控基准，保留了BrowseComp-Plus的英文问答空间，但改变了支持文档的语言。XBCP实现了两种互补设置：在跨语言设置中，每个查询与单一指定语言的证据配对。在多语言设置中，完整的证据语料库被平均且随机地分布在12种语言中，涵盖高资源和低资源语言。我们使用稀疏和密集的多语言检索器评估了四个深度研究智能体，衡量了答案准确性、证据召回、搜索行为、校准、引用忠实度和黄金检索。结果显示，当证据被翻译时性能显著下降。即使是强大的密集检索器也会丢失证据召回，智能体变得不那么校准，引用证据的可靠性降低。值得注意的是，即使直接提供了所有黄金证据，准确性仍然较低。这些发现表明，跨语言深度研究既暴露了检索失败，也暴露了智能体在整合语言不匹配证据方面的独立困难。

查看原文

查看缓存全文

缓存时间: 2026/06/16 11:47

# 超越单语深度研究：通过跨语言 BrowseComp-Plus 评估智能体与检索器

**来源：** https://arxiv.org/html/2606.15345

**作者：** 吕宇恒¹, 曾庆程²¹¹, 祁合力¹,³, 余普选⁴, 赵福恒⁵, 杨锐⁶, 柳瞳美⁷,³, 横矢直人⁷,³, 宣伟浩⁷,³

¹早稻田大学, ²西北大学, ³日本理化学研究所革新智能综合研究中心, ⁴Snowflake Inc., ⁵犹他大学, ⁶杜克-新加坡国立大学医学院, ⁷东京大学

###### 摘要

深度研究智能体正越来越多地通过其搜索证据、推理检索来源并生成有依据答案的能力进行评估。然而，现有的浏览基准大多假设用户查询和支持证据使用同一种语言，这使得当相关证据以另一种语言出现时，智能搜索系统能否运行的问题悬而未决。我们引入了**XBCP**（跨语言 BrowseComp-Plus），这是一个受控基准，它保留了 BrowseComp-Plus 的英文问答空间，但改变了支持文档的语言。XBCP 实现了两种互补的设置。在跨语言设置中，每个查询与单一指定语言的证据配对。在多语言设置中，整个证据语料库被平均且随机地分布到 12 种语言中，涵盖高资源和低资源两种语言范围。我们使用稀疏和多语言密集检索器评估了四种深度研究智能体，衡量了答案准确性、证据召回率、搜索行为、校准度、引用忠实度和全知检索性能。结果显示，当证据被翻译后，性能显著下降。即使是强大的密集检索器也会丢失证据召回，智能体的校准度变差，引用证据的可靠性降低。值得注意的是，即使直接提供所有黄金证据，准确性仍然较低。这些发现表明，跨语言深度研究暴露了检索失败和智能体端在整合语言不匹配证据方面的独立困难。

## 1. 引言

大语言模型（LLM）智能体代表了从仅依赖参数化知识回答问题的模型向主动获取、筛选和综合外部证据的系统转变。深度研究系统是这种转变的一个典型实例：面对复杂的信息需求，智能体必须规划搜索、检查检索来源、判断证据是否充分，并撰写有依据的回答 (OpenAI, 2025a)。这一更广泛的趋势使得基于浏览的评估成为衡量智能体能力的核心测试。BrowseComp (Wei et al., 2025) 通过提出困难但可验证的问题（其答案需要非平凡的网页探索）来具体化这一挑战，从而同时强调搜索行为和基于证据的推理。然而，在实时网络搜索上的评估衡量的是整个随时间变化的系统的整体表现，将语言模型、检索方法、排序 API 和底层语料库纠缠在一起。BrowseComp-Plus (Chen et al., 2025) 通过将 BrowseComp 风格的问题固定在一个经过人工验证的、包含支持文档和困难负例的语料库中，将浏览评估转变为一种受控设置，在该设置中，检索器和 LLM 智能体可以分别研究以及交互研究，从而解决了这一局限性。

然而，这种对深度研究的受控视图在很大程度上仍局限于单语环境。这个局限性很重要，因为多语言和跨语言检索长期以来一直是信息检索领域的核心关注点，而最近的多语言嵌入模型极大地扩展了跨语言检索的能力 (Yu et al., 2024; Zhang et al., 2024, 2025)。对这些模型的大多数评估仍然将检索视为一个独立的排序问题：将查询与固定集合进行匹配，成功与否通过文档级别的相关性来衡量。这种抽象对于隔离检索质量很有用，但它无法捕捉检索作为智能搜索过程一部分时发生的情况。在这种设置下，系统必须发出并优化搜索、比较部分证据，并决定检索到的信息如何支持答案。最近的英文之外的浏览智能体基准，例如 BrowseComp-ZH (Zhou et al., 2025)，拓宽了智能体评估的语言范围，但主要仍然是单语的：问题、证据和答案都停留在同一种语言内。因此，它们回避了真正的跨语言情况，即用一种语言表达的信息需求必须使用另一种语言撰写的证据来回答。

我们需要一个 BrowseComp-Plus 的跨语言扩展来使这种设置可衡量。这样的基准将测试多语言检索器是否能在智能搜索过程中找到正确的证据，以及 LLM 智能体是否能将语言不匹配的证据整合到忠实的答案中。

为使这种设置可衡量，我们引入了跨语言 BrowseComp-Plus（XBCP）。据我们所知，XBCP 是第一个将跨语言深度研究形式化的基准，它将 BrowseComp-Plus 的受控评估范式从单语检索扩展到多语言检索。XBCP 保留了 BrowseComp-Plus 的任务结构：问题用英文提出，期望用英文回答，且证据基于固定语料库。关键区别在于，支持证据不再假定与问题使用相同的语言。我们通过两种互补的配置来实现这种设计。在跨语言设置中，给定查询的所有支持文档都以同一种语言出现，而分配的语言在不同查询之间变化。这测试了当原本可比较的任务跨越不同语言时，系统是否仍能保持稳健。在多语言设置中，证据语料库被随机但平均地分配给 12 种语言，涵盖高资源和低资源语言范围，从而能够对英文查询与特定语言证据文档进行受控评估。这些配置共同使得 XBCP 能够评估多语言检索器是否能在智能搜索过程中找到语言不匹配的证据，以及 LLM 智能体是否能够将此类证据整合到忠实的英文答案中。

我们的实验揭示了所有检索器的准确性和证据召回率大幅下降，引用可靠性降低，甚至在全知检索条件下也存在持续退步。这些发现表明，跨语言深度研究对检索和智能体端的证据整合都造成了压力。图 1 总结了构建和评估流程。

**图 1：** XBCP 流程概览。我们将 BrowseComp-Plus 的证据侧翻译并重组为跨语言和多语言语料库，为受控智能体实验重建检索索引，并通过端到端准确性、证据召回率、校准度、全知检索和按语言分析来评估智能体和检索器。

## 2. 相关工作

##### 深度研究系统。
深度研究系统将工具增强的大语言模型从单步检索扩展到长期信息寻求，其中智能体必须规划搜索、与外部来源交互、验证中间证据并综合有依据的回答。OpenAI Deep Research (OpenAI, 2025a) 是这一范式的典型代表，并激发了越来越多的开放研究智能体以不同方式扩展底层能力：通义深度研究 (Team et al., 2026) 结合了智能体中训练和后训练与大规模合成轨迹；MiroThinker (MiroMind Team et al., 2026) 研究模型、上下文和交互的规模效应；Marco DeepResearch (Zhu et al., 2026) 强调以验证为中心的训练和推理，以减少长期搜索中的错误传播。基准测试也逐渐转向更具挑战性的设置，包括中文网页浏览（BrowseComp-ZH (Zhou et al., 2025)）、专家级金融搜索（FinSearchComp (Hu et al., 2025)）以及包含噪声或冲突搜索结果的情况（SealQA (Pham et al., 2026)）。这些努力极大地推动了系统和评估的发展，但基本上仍局限于单语或特定领域，使得跨语言深度研究尚未得到充分探索。

##### 多语言和跨语言检索。
多语言和跨语言检索已从基于翻译的 CLIR 转向共享嵌入空间。mE5 (Wang et al., 2024) 通过十亿规模的多语言对比预训练和监督微调扩展了 E5 方法，而后续系统通过 mGTE (Zhang et al., 2024) 中的长上下文编码器、Arctic-Embed 2.0 (Yu et al., 2024) 中关注效率和压缩的多语言嵌入，以及 Qwen3 Embedding (Zhang et al., 2025) 中基于基础模型的多语言训练，扩展了设计空间。这一进展伴随着更广泛的认识：CLIR 不仅仅是单语检索加上翻译；检索质量取决于跨语言表示对齐、资源不平衡、领域迁移和评估设计 (Goworek et al., 2025)。因此，评估已扩展到诸如 MMTEB (Enevoldsen et al., 2025)、MIRACL (Zhang et al., 2023) 和 MLDR (Chen et al., 2024) 等代表性基准，但它仍然是一个固定集合的排序问题。大规模 CLIR 实验表明，多语言双编码器和基于翻译的词法检索在不同数据集和语言领域中占主导地位 (Zuo et al., 2025)；针对特定任务的事实核查研究进一步表明，多语言和跨语言检索会产生不同的模型排名和监督适应性带来的收益 (Ramponi et al., 2025)。这些工作提供了强大的检索器和面向排序的评估，但未能提供深度研究智能体迭代搜索、证据选择和答案合成循环内的跨语言检索视图。

## 3. 构建 XBCP

### 3.1 基于翻译的构建

我们通过翻译 BrowseComp-Plus (Chen et al., 2025) 的证据侧来构建 XBCP：问题保持英文，最终答案用英文评估，只有证据文档的语言发生变化。我们使用 GPT-5.4 (OpenAI, 2026) 作为翻译模型，采用单一的语言条件提示，要求将文档完整翻译成目标语言，包括标题、术语、专有名词和元数据字段名称，同时保留 URL、电子邮件地址、公式和代码块；完整提示见附录 B。该提示应用于非英语目标语言的每个源文档，而英文文档则保持不变。由此产生的证据语言旨在跨越不同的资源条件。我们包括了在网页和检索覆盖方面相对高资源的语言，即中文、英文、法文、德文、日文、韩文、葡萄牙文和西班牙文，以及低资源的非洲语言，即斯瓦希里语、沃洛夫语、约鲁巴语和祖鲁语。这种语言集使得 XBCP 能够测试跨语言深度研究系统是否在各种资源条件下平稳退化，还是在证据出现在检索和建模支持较弱的语言时不成比例地失败。

翻译后的语料库支持两种评估配置。在跨语言设置中，每个查询被分配一种证据语言，因此该查询的所有支持文档都以同一种语言出现（英文作为未翻译的参考）。附录表 8 报告了由此产生的 830 个查询分配和 5,040 个证据文档分配。在多语言设置中，5,040 个证据文档实例被随机但平均地分配给 12 种语言，每种语言 420 个证据文档；附录表 9 给出了每种语言的文档计数。这种构建使我们能够在保留原始任务语义的同时改变证据的语言形式，从而使检索失败和智能体端合成失败在不同语言之间具有可比性。

### 3.2 验证与质量控制

为了评估翻译证据的质量，我们遵循 MMLU-ProX (Xuan et al., 2025) 的翻译评估准则进行了一项独立的专家验证研究。准则见附录 C。我们从 11 种非英语语言中各抽取了 200 个翻译后的文档，总共产生 2,200 个翻译实例。专家注释者将每个翻译与原始英文文档进行比较，并按照 MMLU-ProX 中的三个相同维度（准确性、流利度和完整性，使用 1-5 分制）进行评分，这样验证的重点是翻译后的文档是否保留了检索和答案合成所需的证据。验证结果见附录 D。所有语言级别的平均分数均超过 4.0，这表明翻译后的证据通常可用于受控评估，同时可能存在残留的伪影。

## 4. 实验与结果

### 4.1 实验设置

遵循 BrowseComp-Plus (Chen et al., 2025) 的评估协议，我们通过将搜索智能体与固定语料库上的受控检索器工具配对来评估 XBCP。我们考虑了四种智能体：GPT-OSS-20B (OpenAI et al., 2025)、GPT-OSS-120B (OpenAI et al., 2025)、Qwen3.6-35B-A3B (Qwen Team, 2026) 和 DeepSeek-V4-Pro (DeepSeek-AI, 2026)。对于检索，我们比较了一个稀疏词法基线 BM25 (Robertson and Zaragoza, 2009) 和四个密集多语言检索器：Qwen3-Embedding-4B、Qwen3-Embedding-8B (Zhang et al., 2025)、Multilingual-E5-Large (Wang et al., 2024) 和 Arctic-Embed-L-2.0 (Yu et al., 2024)。GPT-OSS-20B、GPT-OSS-120B 和 Qwen3.6-35B-A3B 使用所有五种检索器进行评估，而 DeepSeek-V4-Pro 使用 BM25 和 Qwen3-Embedding-8B 进行评估。每个可用的智能体-检索器对在三种语料库条件下进行评估。评估在两个互补的层面上进行。首先，端到端的智能体性能捕获了智能体在使用检索器时是否能正确回答……

超越单语深度研究：使用跨语言BrowseComp-Plus评估智能体与检索器

相似文章

EvoBrowseComp：面向演进知识的搜索代理基准测试

语码转换信息检索：基准、分析与现有检索器的局限

跨语言探索参数化知识

跨语言共识：通过多语言自一致性对齐多语言文化知识

MMed-Bench-IR：一个用于多语言医学信息检索的异构基准

提交意见反馈