重新思考基于 Pi-Serini 的智能体搜索:词法检索是否足够?

Hugging Face Daily Papers 论文

摘要

本文介绍了 Pi-Serini,这是一个基于 BM25 的智能体搜索系统。该系统证明了当智能体优化查询时,词法检索足以支持深度搜索,相比默认设置,它在实现高准确率的同时降低了成本。

随着大型语言模型(LLMs)在智能体循环中变得越来越强大,词法检索器是否就足够了?在构建深度研究系统时,这个问题自然而然地出现了。我们通过将 BM25 与具备更强推理和工具使用能力的尖端 LLM 相结合,重新审视了这一问题。为了帮助提出同样问题的研究人员,我们引入了 Pi-Serini,这是一个配备用于检索、浏览和阅读文档三种工具的搜索智能体。我们的结果表明,在 BrowseComp-Plus 基准上,当与更强大的 LLM 配对时,配置良好且具备足够检索深度的词法检索器可以有效支持深度研究。具体来说,搭载 gpt-5.5 的 Pi-Serini 达到了 83.1% 的答案准确率和 94.7% 的呈现证据召回率,优于使用稠密检索器(dense retrievers)的已发布搜索智能体。可控的消融实验进一步表明,与默认 BM25 设置相比,BM25 调优将答案准确率提高了 18.0%,将呈现证据召回率提高了 11.1%,而增加检索深度则进一步将呈现证据召回率提高了 25.3%(相对于浅层检索设置)。源代码可在 https://github.com/justram/pi-serini 获取。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/13 00:20

论文速读 - Rethinking Agentic Search with Pi-Serini: Is Lexical Retrieval Sufficient?

来源:https://huggingface.co/papers/2605.10848 当智能体能够不断细化其查询时,仅靠词法检索器(lexical retriever)是否足以满足智能体搜索的需求?

随着大语言模型(LLM)在智能体循环(agentic loops)中的能力日益增强,智能体可以根据环境反馈持续优化其行为,包括工具使用和推理过程。受此启发,我不禁提出了上述问题。

为了回答这一问题,我们推出了 Pi-Serini(= PI + Anserini),这是一个基于 BM25 的最小化搜索智能体,配备了 searchbrowseread 工具。该接口允许智能体将检索到的排名结果缓存到本地,并选择性地将内容纳入其上下文窗口,这非常类似于人们使用 Google 搜索的方式。这种设计使得智能体能够进行更深层次的检索。

在 BrowseComp-Plus 基准测试上的结果:搭载 GPT-5.5 的 Pi-Serini 实现了 83.1% 的答案准确率(answer accuracy)和 94.7% 的证据召回率(surfaced evidence recall)。

可控的消融实验表明:精心配置的 BM25 相比默认 BM25 设置,将答案准确率提高了 18.0%,证据召回率提高了 11.1%。增加检索深度 相比浅层检索,将证据召回率提高了 25.3%。

总体而言,我们的结论是:是的,只要配置得当,且搜索智能体配备了支持深度检索的工具接口,词法检索器足以应对智能体搜索任务。

值得注意的是,如果您担心深度研究的高昂成本,Pi-Serini 或许能帮上忙:它将评估成本降低了 3.3 倍至 10 倍。

论文:https://arxiv.org/abs/2605.10848 代码:https://github.com/justram/pi-serini 项目主页:https://ricky42613.github.io/piserini

相似文章

超越语义相似性:通过直接语料库交互重新思考智能体搜索的检索

Hugging Face Daily Papers

论文提出了直接语料库交互(DCI),这是一种新颖的方法,允许AI代理使用标准终端工具直接查询原始文本,而不是传统的基于嵌入的检索。通过绕过固定的相似性接口和离线索引,DCI在多个信息检索和智能体搜索基准上显著优于传统的稀疏、密集和重排序基线。

介绍上下文检索

Anthropic Engineering

Anthropic 推出了上下文检索,这是一种结合了上下文嵌入和 BM25 的技术,通过减少检索失败的情况,显著提高了 RAG 的准确性。