重新思考基于 Pi-Serini 的智能体搜索：词法检索是否足够？

Hugging Face Daily Papers 2026/05/11 00:00 论文

agentic-search lexical-retrieval bm25 information-retrieval ai-agents search-optimization

摘要

本文介绍了 Pi-Serini，这是一个基于 BM25 的智能体搜索系统。该系统证明了当智能体优化查询时，词法检索足以支持深度搜索，相比默认设置，它在实现高准确率的同时降低了成本。

随着大型语言模型（LLMs）在智能体循环中变得越来越强大，词法检索器是否就足够了？在构建深度研究系统时，这个问题自然而然地出现了。我们通过将 BM25 与具备更强推理和工具使用能力的尖端 LLM 相结合，重新审视了这一问题。为了帮助提出同样问题的研究人员，我们引入了 Pi-Serini，这是一个配备用于检索、浏览和阅读文档三种工具的搜索智能体。我们的结果表明，在 BrowseComp-Plus 基准上，当与更强大的 LLM 配对时，配置良好且具备足够检索深度的词法检索器可以有效支持深度研究。具体来说，搭载 gpt-5.5 的 Pi-Serini 达到了 83.1% 的答案准确率和 94.7% 的呈现证据召回率，优于使用稠密检索器（dense retrievers）的已发布搜索智能体。可控的消融实验进一步表明，与默认 BM25 设置相比，BM25 调优将答案准确率提高了 18.0%，将呈现证据召回率提高了 11.1%，而增加检索深度则进一步将呈现证据召回率提高了 25.3%（相对于浅层检索设置）。源代码可在 https://github.com/justram/pi-serini 获取。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/13 00:20

论文速读 - Rethinking Agentic Search with Pi-Serini: Is Lexical Retrieval Sufficient?

来源：https://huggingface.co/papers/2605.10848 当智能体能够不断细化其查询时，仅靠词法检索器（lexical retriever）是否足以满足智能体搜索的需求？

随着大语言模型（LLM）在智能体循环（agentic loops）中的能力日益增强，智能体可以根据环境反馈持续优化其行为，包括工具使用和推理过程。受此启发，我不禁提出了上述问题。

为了回答这一问题，我们推出了 Pi-Serini（= PI + Anserini），这是一个基于 BM25 的最小化搜索智能体，配备了 search、browse 和 read 工具。该接口允许智能体将检索到的排名结果缓存到本地，并选择性地将内容纳入其上下文窗口，这非常类似于人们使用 Google 搜索的方式。这种设计使得智能体能够进行更深层次的检索。

在 BrowseComp-Plus 基准测试上的结果：搭载 GPT-5.5 的 Pi-Serini 实现了 83.1% 的答案准确率（answer accuracy）和 94.7% 的证据召回率（surfaced evidence recall）。

可控的消融实验表明：精心配置的 BM25 相比默认 BM25 设置，将答案准确率提高了 18.0%，证据召回率提高了 11.1%。增加检索深度 相比浅层检索，将证据召回率提高了 25.3%。

总体而言，我们的结论是：是的，只要配置得当，且搜索智能体配备了支持深度检索的工具接口，词法检索器足以应对智能体搜索任务。

值得注意的是，如果您担心深度研究的高昂成本，Pi-Serini 或许能帮上忙：它将评估成本降低了 3.3 倍至 10 倍。

论文：https://arxiv.org/abs/2605.10848 代码：https://github.com/justram/pi-serini 项目主页：https://ricky42613.github.io/piserini

重新思考基于 Pi-Serini 的智能体搜索：词法检索是否足够？

论文速读 - Rethinking Agentic Search with Pi-Serini: Is Lexical Retrieval Sufficient?

相似文章

超越语义相似性：通过直接语料库交互重新思考智能体搜索的检索

重新思考推理密集型检索：评估并提升智能体搜索系统中的检索器

从网页到像素：将智能体搜索引入视觉感知

介绍上下文检索

InterLV-Search：交织多模态智能体搜索基准测试

提交意见反馈