@zhuofengli96475: DCI刚刚在Hugging Face每日论文中登顶第一!立即试用!@HuggingPapers https://huggingface.co/papers/2605.05242…
摘要
DCI(直接语料交互)提出使用简单的终端工具如grep和bash进行智能搜索,无需嵌入或向量索引,表现优于传统检索方法。
查看缓存全文
缓存时间: 2026/05/16 21:24
🚀 DCI 刚刚登上 Hugging Face 每日论文榜首!立即体验! @HuggingPapers
https://t.co/h1CWuCtuQz https://t.co/8K2O7zZ7vq
论文页面 - 超越语义相似度:通过直接语料交互重新思考智能体搜索的检索方法
来源:https://huggingface.co/papers/2605.05242 发布于 5 月 3 日
#2 每日论文(https://huggingface.co/papers/date/2026-05-08) 作者:
,
,
,
,
,
,
,
,
,
,
,
,
摘要
直接语料交互使智能体能够直接查询原始文本,从而实现更高效的智能体搜索,在复杂任务中优于传统检索方法。
现代检索系统(https://huggingface.co/papers?q=retrieval%20systems),无论是基于词法还是语义,都通过固定的相似度接口来暴露语料,这种接口将访问压缩为推理前的单次 top-k 检索步骤。这种抽象是高效的,但对于智能体搜索(https://huggingface.co/papers?q=agentic%20search)来说,它成为了瓶颈:精确的词法约束、稀疏线索的联合、局部上下文检查以及多步假设修正,都难以通过调用传统的现成检索器来实现;而早期被过滤掉的证据也无法通过更强后端推理来恢复。智能体任务进一步放大了这一局限性,因为这些任务要求智能体编排多个步骤,包括发现中间实体、组合微弱线索以及在观察到部分证据后修正计划。为突破这一局限,我们研究了直接语料交互(https://huggingface.co/papers?q=direct%20corpus%20interaction)(DCI),其中智能体通过通用终端工具(https://huggingface.co/papers?q=terminal%20tools)(例如 grep、文件读取、shell 命令、轻量脚本)直接搜索原始语料,无需任何嵌入模型、向量索引或检索 API。此方法无需离线索引,并能自然适应不断演变的本地语料。在 IR 基准测试(https://huggingface.co/papers?q=IR%20benchmarks)和端到端智能体搜索(https://huggingface.co/papers?q=agentic%20search)任务中,这一简单设置在多个 BRIGHT 和 BEIR 数据集(https://huggingface.co/papers?q=BEIR%20datasets)上显著优于强稀疏、密集和重排序(https://huggingface.co/papers?q=reranking)基线,并在 BrowseComp-Plus(https://huggingface.co/papers?q=BrowseComp-Plus)和多跳 QA(https://huggingface.co/papers?q=multi-hop%20QA)上取得了强精度,且不依赖任何传统语义检索器。我们的结果表明,随着语言智能体能力变强,检索质量不仅取决于推理能力,还取决于模型与语料交互的接口分辨率;DCI 为此为智能体搜索(https://huggingface.co/papers?q=agentic%20search)开辟了更广阔的接口设计空间。
查看 arXiv 页面(https://arxiv.org/abs/2605.05242)查看 PDF(https://arxiv.org/pdf/2605.05242)GitHub207(https://github.com/DCI-Agent/DCI-Agent-Lite)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.05242)
引用本论文的模型0
没有模型关联本论文
请在模型 README.md 中引用 arxiv.org/abs/2605.05242 以链接到此页面。
引用本论文的数据集0
没有数据集关联本论文
请在数据集 README.md 中引用 arxiv.org/abs/2605.05242 以链接到此页面。
引用本论文的 Spaces2
包含本论文的收藏集5
浏览 5 个包含本论文的收藏集(https://huggingface.co/collections?paper=2605.05242)
Zhuofeng Li (@zhuofengli96475): 🔥 隆重介绍直接语料交互(DCI)!智能体搜索的最佳检索器就是不用检索器。
🚀 我们将整个智能体搜索流程——嵌入模型、向量索引、top-k 检索——全部替换成了
grep和bash。🔧📄 论文:https://t.co/h1CWuCtuQz
DCI
相似文章
超越语义相似性:通过直接语料库交互重新思考智能体搜索的检索
论文提出了直接语料库交互(DCI),这是一种新颖的方法,允许AI代理使用标准终端工具直接查询原始文本,而不是传统的基于嵌入的检索。通过绕过固定的相似性接口和离线索引,DCI在多个信息检索和智能体搜索基准上显著优于传统的稀疏、密集和重排序基线。
@dair_ai: https://x.com/dair_ai/status/2056018543850754283
一份关于5月11日至17日顶级人工智能论文的综述,涵盖了用于长上下文预训练的Lighthouse Attention、grep与嵌入检索在编码代理中的对比,以及揭示LLMs中几何计算器的机制可解释性工作。
@jerryjliu0:关于grep是否是智能体搜索所需的全部工具,这个问题尚无定论。@PwCUS(Sen等人)最近的这篇论文似乎……
最近的一篇论文研究了在智能体检索中,grep是否优于向量搜索,发现grep在对话记忆测试中具有更高的准确性,但也指出了在企业文档语料库方面的局限性。
@omarsar0: // Is Grep All You Need? // 注意了,AI开发者们。(收藏起来)他们发现,grep风格的文本搜索,当…
PwC的一篇研究论文发现,当正确集成到代理框架中时,grep风格的文本搜索在编码代理任务上可以匹配或超越基于嵌入的检索,这表明向量数据库对许多用例可能并非必需。
@dair_ai:关于自主搜索与向量搜索的精彩论文。
本文讨论并比较了自主搜索与向量搜索方法。