@omarsar0: // Is Grep All You Need? // 注意了,AI开发者们。(收藏起来)他们发现,grep风格的文本搜索,当…

X AI KOLs Timeline 论文

摘要

PwC的一篇研究论文发现,当正确集成到代理框架中时,grep风格的文本搜索在编码代理任务上可以匹配或超越基于嵌入的检索,这表明向量数据库对许多用例可能并非必需。

// Is Grep All You Need? // 注意了,AI开发者们。 (收藏起来) 他们发现,当包裹在正确的代理框架中时,grep风格的文本搜索在编码代理任务上匹配或超越基于嵌入的检索。 在这一切发展下去,向量数据库还有必要吗? 也许编码代理需要的并不是更好的嵌入。而是围绕原始工具更好的框架设计。 如果你运行一个依赖向量数据库的编码代理栈,或许是时候重新评估了。 我个人经验是,如果做对了,代理搜索对很多用例来说已经足够好了。但你还必须了解如何正确索引和结构化信息,以便代理能够利用。在大规模场景下,向量数据库确实表现出色,所以也要考虑这一点。在大多数情况下,混合方法通常效果最佳,但这也是我们目前尚未完全解决的问题。 论文:https://arxiv.org/abs/2605.15184 在我们的学院学习构建有效的AI代理:https://academy.dair.ai
查看原文
查看缓存全文

缓存时间: 2026/05/16 17:22

// Grep 就是全部所需吗? //

AI 开发者们,请关注这一点。

(把它收藏起来)

他们发现,当将 grep 风格的文本搜索包裹在合适的智能体框架中时,其在编程智能体任务上的表现与基于嵌入的检索相当甚至更好。

在此发展趋势下,向量数据库是否还有必要?

也许编程智能体需要的并非更好的嵌入,而是围绕原始工具设计更优的框架。

如果你运营的编程智能体栈依赖于向量数据库,或许是时候重新评估了。

我个人的经验是,如果实施得当,智能体搜索对于许多用例来说已经足够好。但你也需要了解如何正确索引和结构化信息,以便智能体充分利用。在大规模场景下,向量数据库确实表现出色,这一点也需考虑。在大多数情况下,混合方法往往效果最佳,但这一点我们目前尚未完全掌握。

论文:https://arxiv.org/abs/2605.15184

在我们的学院中学习如何构建有效的 AI 智能体:https://academy.dair.ai


Grep 就是全部所需吗?智能体框架如何重塑智能体搜索

来源:https://arxiv.org/html/2605.15184 ,Akhil KasturiPricewaterhouseCoopers, [email protected] (https://arxiv.org/html/2605.15184v1/mailto:[email protected]),Elias LumerPricewaterhouseCoopers, [email protected] (https://arxiv.org/html/2605.15184v1/mailto:[email protected]),Anmol GulatiPricewaterhouseCoopers, U.S.andVamse Kumar SubbiahPricewaterhouseCoopers, U.S.

摘要。

大型语言模型(LLM)智能体的近期进展已实现复杂智能体工作流,其中模型自主检索信息、调用工具并在大型语料库上进行推理以代表用户完成任务。尽管检索增强生成(RAG)在智能体系统中被日益采用,但现有文献缺乏对检索策略选择如何与智能体架构及工具调用范式相互作用的系统比较。重要的实践维度,例如工具输出如何呈现给模型,以及当搜索必须处理更多无关上下文文本时性能如何变化,在智能体循环中仍未被充分探索。本文报告了一项组织为两个实验的实证研究。实验1在116个问题的LongMemEval样本上比较了grep和向量检索,使用了自定义智能体框架(Chronos)和提供商原生CLI框架(Claude Code、Codex和Gemini CLI),针对内联工具结果和模型单独读取的基于文件的工具结果。实验2比较了纯grep和纯向量检索,同时逐步混入额外的无关对话历史,使每个查询嵌入更多干扰材料以及相关段落。在Chronos和提供商CLI中,实验1的比较显示grep通常比向量检索获得更高准确率;与此同时,即使底层对话数据相同,总体得分仍强烈依赖于所使用的框架和工具调用风格。

智能体搜索、语义搜索、词汇搜索、上下文工程、智能体框架、LLM评估、Grep

††copyright:none## 1. 引言

现代LLM智能体越来越依赖RAG在推理时访问外部知识(Lewiset al.,2020 (https://arxiv.org/html/2605.15184#bib.bib1); Gaoet al.,2024 (https://arxiv.org/html/2605.15184#bib.bib2)),使其能够推理远超上下文窗口的语料库。通过工具调用,智能体发出搜索查询、接收排序结果,并在产生答案前迭代优化其理解(Yaoet al.,2023 (https://arxiv.org/html/2605.15184#bib.bib13); Schicket al.,2023 (https://arxiv.org/html/2605.15184#bib.bib10); Qinet al.,2023 (https://arxiv.org/html/2605.15184#bib.bib14))。两种检索范式主导了这一领域:语义向量搜索,它将查询和文档嵌入到共享的潜在空间进行近似最近邻匹配(Karpukhinet al.,2020 (https://arxiv.org/html/2605.15184#bib.bib5));以及词汇搜索(例如grep、BM25、正则表达式),它进行精确或基于模式的原始文本匹配。虽然向量搜索已成为大多数RAG系统的默认选择(Gaoet al.,2024 (https://arxiv.org/html/2605.15184#bib.bib2); Wang and others,2024 (https://arxiv.org/html/2605.15184#bib.bib3)),但词汇搜索因其简单、稳定和低嵌入成本而仍被广泛使用(Lin,2019 (https://arxiv.org/html/2605.15184#bib.bib6); Thakuret al.,2021 (https://arxiv.org/html/2605.15184#bib.bib4))。然而,在端到端的智能体工作流中,检索策略如何与智能体架构和工具调用范式相互作用仍鲜为人知。尽管智能体搜索的采用日益增长(Asaiet al.,2024 (https://arxiv.org/html/2605.15184#bib.bib17); Jianget al.,2023 (https://arxiv.org/html/2605.15184#bib.bib18); Trivediet al.,2023 (https://arxiv.org/html/2605.15184#bib.bib19)),但现有研究主要将检索策略与智能体架构隔离开来评估。信息检索社区已经广泛基准测试了词汇和密集检索方法(Thakuret al.,2021 (https://arxiv.org/html/2605.15184#bib.bib4); Luanet al.,2021 (https://arxiv.org/html/2605.15184#bib.bib28); Formalet al.,2021 (https://arxiv.org/html/2605.15184#bib.bib8)),并研究了独立管道中的检索质量、分块和重排序(Gaoet al.,2024 (https://arxiv.org/html/2605.15184#bib.bib2); Wang and others,2024 (https://arxiv.org/html/2605.15184#bib.bib3))。然而,这些评估通常假设一个固定管道,将检索到的文档拼接成提示词,忽略了现代智能体系统特有的迭代式、工具介导的检索循环(Qinet al.,2024 (https://arxiv.org/html/2605.15184#bib.bib11); Patilet al.,2023 (https://arxiv.org/html/2605.15184#bib.bib12))。在实践中,智能体接收到排序列表,但不会将其视为终止信号:它们决定搜索什么、发出多少次查询,以及检索结果是否足够或需要进一步细化,所有这些都由智能体框架及其工具调用接口介导(Sumerset al.,2023 (https://arxiv.org/html/2605.15184#bib.bib16); Wanget al.,2023 (https://arxiv.org/html/2605.15184#bib.bib15))。此外,工具结果如何呈现给模型,是内联注入上下文窗口还是写入文件供智能体明确读取,引入了先前工作未考察的额外架构考虑。与此同时,提供商原生CLI智能体的出现,如Claude Code (Anthropic)、Codex (OpenAI)和Gemini CLI (Google),创造了一类与自定义构建设群不同的智能体系统(Yanget al.,2024 (https://arxiv.org/html/2605.15184#bib.bib25))。这些提供商框架将工具调用嵌入基于shell的界面,模型可直接访问命令行执行工具(如grep),而自定义框架和智能体SDK则提供对工具调用循环、上下文构建和结果格式化的细粒度控制。检索策略有效性如何因这些架构不同的框架类别而变化尚未被研究。此外,检索质量的一个较少考察的维度是对语料库噪声的稳健性:随着无关文档与相关文档的比例增加,检索策略可能以不同速率下降(Liuet al.,2024 (https://arxiv.org/html/2605.15184#bib.bib21)),理解这一缩放行为对于在大型、有噪声的语料库上部署RAG系统至关重要。本文旨在通过一项按实验组织的实证研究(Section4 (https://arxiv.org/html/2605.15184#S4))来填补这些空白。我们在自定义框架(Chronos(Senet al.,2026 (https://arxiv.org/html/2605.15184#bib.bib32)))和提供商原生CLI框架(Claude Code、Codex、Gemini CLI)上评估词汇搜索和语义向量搜索,在标准内联上下文交付和程序化基于文件的结果交付两种方式下。我们在LongMemEval基准测试(Wuet al.,2025 (https://arxiv.org/html/2605.15184#bib.bib24))的一个116问题子集上评估了多个LLM,该子集涵盖六类信息检索任务。本文有三点贡献:

  • •检索、框架和呈现。关于词汇检索与密集检索的选择如何与智能体编排层以及工具输出是通过内联还是文件方式呈现相结合的证据。
  • •噪声和规模。描述端到端行为如何随着无关上下文内容相对于任务相关材料的增长而演变,包括检索器行为与更广泛智能体循环之间的交互。
  • •跨智能体栈的异质性。直接比较表明,即使底层文本语料库保持不变,检索有效性在不同架构的框架(自定义与提供商原生CLI)之间并非稳定。

2. 智能体系统中检索概述

智能体系统中的检索指的是LLM智能体在语料库上识别、执行和消费搜索操作以回答用户查询的过程。与独立检索管道(其中固定查询与文档索引匹配,并将top-k结果拼接成提示词(Lewiset al.,2020 (https://arxiv.org/html/2605.15184#bib.bib1); Gaoet al.,2024 (https://arxiv.org/html/2605.15184#bib.bib2)))不同,智能体检索是迭代且由智能体主导的:模型决定搜索什么、发出多少次查询,以及检索结果是否足够或需要细化(Yaoet al.,2023 (https://arxiv.org/html/2605.15184#bib.bib13); Jianget al.,2023 (https://arxiv.org/html/2605.15184#bib.bib18); Asaiet al.,2024 (https://arxiv.org/html/2605.15184#bib.bib17))。这一过程由两个设计维度共同决定端到端有效性:检索策略(词汇、语义或混合)和智能体框架(自定义或提供商原生)。

2.1. 检索策略

智能体搜索系统的检索策略大致分为三类:词汇、语义和混合。每种策略在准确性、延迟、成本和查询表述的稳健性方面提供不同的权衡。

2.1.1. 词汇搜索。

词汇检索方法对原始文本执行精确或基于模式的匹配。经典方法如BM25(Lin,2019 (https://arxiv.org/html/2605.15184#bib.bib6))通过词频和逆文档频率对文档评分,而grep搜索则使用正则表达式或子字符串匹配来定位包含特定关键词的段落(Lumeret al.,2025a (https://arxiv.org/html/2605.15184#bib.bib29))。词汇方法不需要嵌入模型或向量索引,除了文本扫描本身之外几乎不需要计算成本。BEIR基准测试表明,BM25在多种检索任务中仍然是具有竞争力的基线,在零样本设置中通常优于早期密集检索模型(Thakuret al.,2021 (https://arxiv.org/html/2605.15184#bib.bib4))。学习到的稀疏表示如SPLADE(Formalet al.,2021 (https://arxiv.org/html/2605.15184#bib.bib8))通过学习词汇扩展查询和文档词项,弥合了精确匹配与语义理解之间的差距,同时保持了稀疏表示的可解释性和效率。

2.1.2. 语义搜索。

语义或密集检索将查询和文档编码为共享嵌入空间中的密集向量,并检索最近邻,最常见的方式是近似最近邻(ANN)搜索(Karpukhinet al.,2020 (https://arxiv.org/html/2605.15184#bib.bib5))。密集段落检索(DPR)通过在问答对上训练双编码器建立了这一范式,使检索基于意义而非表层词项重叠(Karpukhinet al.,2020 (https://arxiv.org/html/2605.15184#bib.bib5))。RAG系统通过将密集检索与生成模型耦合扩展了这一方法,允许检索器和生成器联合优化(Lewiset al.,2020 (https://arxiv.org/html/2605.15184#bib.bib1))。现代RAG管道通常使用预训练的嵌入模型在索引时编码文档,在推理时编码查询,并可选择在检索后重排序以细化初始候选集(Gaoet al.,2024 (https://arxiv.org/html/2605.15184#bib.bib2); Wang and others,2024 (https://arxiv.org/html/2605.15184#bib.bib3))。虽然语义搜索在处理释义和语义相似性方面表现出色,但它引入了对嵌入模型质量、向量索引基础设施和索引延迟的依赖,而词汇方法则避免了这些。

2.1.3. 混合方法。

混合检索结合词汇和语义信号以利用两种范式的优势。倒数排序融合(RRF)(Cormacket al.,2009 (https://arxiv.org/html/2605.15184#bib.bib27); Gulatiet al.,2026 (https://arxiv.org/html/2605.15184#bib.bib30))合并来自独立词汇和密集检索器的排序列表,无需分数校准。后期交互模型如ColBERT(Khattab and Zaharia,2020 (https://arxiv.org/html/2605.15184#bib.bib7))计算查询和文档表示之间的细粒度词元级相似性,在单向量检索的效率与交叉编码器重排序的表达能力之间取得了中间地带。关于稀疏和密集表示互补性的研究表明,词汇和语义方法通常检索到不同的相关文档,因此它们的组合比单独使用任何一种更有效(Luanet al.,2021 (https://arxiv.org/html/2605.15184#bib.bib28))。在智能体设置中,当智能体可以同时访问词汇和语义搜索工具并根据查询在它们之间进行选择时,混合检索也可以自然形成。

2.2. 智能体框架

智能体框架是管理工具调用循环的环境层:它构建提示词、分发工具调用、接收结果,并决定是继续迭代还是产生最终答案。我们区分两类在控制程度上根本不同的框架。

2.2.1. 自定义框架。

自定义框架由开发者使用智能体框架、提供商开放SDK或自定义代码构建(Yaoet al.,2023 (https://arxiv.org/html/2605.15184#bib.bib13); Sumerset al.,2023 (https://arxiv.org/html/2605.15184#bib.bib16))。这些框架对智能体循环的每个阶段提供细粒度控制:系统提示词、工具定义、上下文构建、结果格式化和迭代终止条件。ReAct范式(Yaoet al.,2023 (https://arxiv.org/html/2605.15184#bib.bib13)),将推理轨迹与工具操作交织在一起,是自定义框架中采用最广泛的模式。开发者可以实现领域特定优化,例如动态提示词(根据查询定制系统提示词)、结果截断策略和检索段落的重排序。自定义框架还允许显式管理上下文窗口,例如随着对话增长总结或丢弃早期工具结果(Lumeret al.,2025b (https://arxiv.org/html/2605.15184#bib.bib31); Packeret al.,2023 (https://arxiv.org/html/2605.15184#bib.bib23))。权衡是开发开销:构建和维护自定义框架需要大量工程努力和提示工程、工具调用设计以及会话管理方面的专业知识。

相似文章

@dair_ai: https://x.com/dair_ai/status/2056018543850754283

X AI KOLs Following

一份关于5月11日至17日顶级人工智能论文的综述,涵盖了用于长上下文预训练的Lighthouse Attention、grep与嵌入检索在编码代理中的对比,以及揭示LLMs中几何计算器的机制可解释性工作。