@DivyanshT91162: 人工智能行业花费数十亿美元解决一个52年前的终端命令早已解决的问题。在过去的…

X AI KOLs Timeline 2026/06/17 14:53 新闻

retrieval-augmented-generation grep vector-database semantic-search ai-memory llm-agents critical-analysis

摘要

一条Twitter帖子指出，人工智能行业在RAG的向量检索系统上投入巨资可能并无必要，因为52年前的终端命令'grep'在AI代理上下文中进行精确匹配时表现优于现代语义搜索。

人工智能行业花费数十亿美元解决一个52年前的终端命令早已解决的问题。在过去的两年里，RAG成为了AI记忆的默认方案。需要一个代理来搜索代码库？使用嵌入向量。需要长期记忆？使用向量数据库。需要检索？构建语义搜索管道。整个行业都围绕这个想法建立起来。然后研究人员测试了一个简单得令人尴尬的东西： grep。那个自1974年以来开发者一直在使用的命令。他们比较了现代向量检索系统与针对AI代理（如Claude Code和Gemini CLI）的纯文本搜索。结果非常残酷。 grep不仅跟上了步伐。它获胜了。当代理需要精确的变量名、错误信息、函数调用或日志条目时，语义搜索往往返回“相似”的结果，而不是正确的结果。这种额外的噪音混淆了代理。 grep则相反。没有猜测。没有解释。没有干扰。只有精确的答案。最大的教训是什么？ LLMs已经提供了智能。检索系统不需要思考。它们只需要抓取。有时候，一个1974年的工具在完成这一任务上胜过价值数十亿美元的AI堆栈。链接

查看原文

查看缓存全文

缓存时间: 2026/06/18 12:15

AI行业花了数十亿美元解决一个问题，而一个诞生于52年前的终端命令早已解决了它。

过去两年里，RAG（检索增强生成）成了AI记忆问题的默认答案。

需要代理搜索代码库？用嵌入。

需要长期记忆？用向量数据库。

需要检索？构建语义搜索流水线。

整个行业都围绕这个想法建立起来。

然后，研究人员测试了一个简单得令人尴尬的东西：

grep。

同一个自1974年以来开发者一直在用的命令。

他们拿现代向量检索系统与纯文本搜索（用于像Claude Code和Gemini CLI这样的AI代理）做了对比。

结果令人震惊。

grep不仅没落后。

它赢了。

当代理需要精确的变量名、错误信息、函数调用或日志条目时，语义搜索常常返回“相似”结果，而不是正确的那个。

那些额外噪声混淆了代理。

grep正好相反。

不猜。不解释。不分心。

只给精确答案。

最大的教训是什么？

LLM已经提供了智能。

检索系统不需要思考。

它们只需要取数据。

而有时候，一个1974年的工具在完成这一点上，能击败价值数十亿美元的AI堆栈。

链接

论文： https://arxiv.org/pdf/2605.15184

@DivyanshT91162: 人工智能行业花费数十亿美元解决一个52年前的终端命令早已解决的问题。在过去的…

相似文章

@omarsar0: // Is Grep All You Need? // 注意了，AI开发者们。（收藏起来）他们发现，grep风格的文本搜索，当…

@HowToPrompt__：整个向量数据库行业被一个1974年的免费工具打败了。过去两年里，每一家公司……

@Suryanshti777: 这太疯狂了有人终于意识到AI编程代理花费一半的时间在搜索代码库而不是实际…

@jerryjliu0：关于grep是否是智能体搜索所需的全部工具，这个问题尚无定论。@PwCUS（Sen等人）最近的这篇论文似乎……

@rohanpaul_ai: Anthropic新研究表明，AI智能体在代码方面可能表现卓越，但在生物学领域，它们可能在科学工作开始之前就失败……

提交意见反馈