@zhuofengli96475: DCI刚刚在Hugging Face每日论文中登顶第一!立即试用!@HuggingPapers https://huggingface.co/papers/2605.05242…

X AI KOLs Following 论文

摘要

DCI(直接语料交互)提出使用简单的终端工具如grep和bash进行智能搜索,无需嵌入或向量索引,表现优于传统检索方法。

🚀 DCI刚刚在Hugging Face每日论文中登顶第一!立即试用!@HuggingPapers https://t.co/h1CWuCtuQz https://t.co/8K2O7zZ7vq
查看原文
查看缓存全文

缓存时间: 2026/05/16 21:24

🚀 DCI 刚刚登上 Hugging Face 每日论文榜首!立即体验! @HuggingPapers

https://t.co/h1CWuCtuQz https://t.co/8K2O7zZ7vq


论文页面 - 超越语义相似度:通过直接语料交互重新思考智能体搜索的检索方法

来源:https://huggingface.co/papers/2605.05242 发布于 5 月 3 日

#2 每日论文(https://huggingface.co/papers/date/2026-05-08) 作者:

,

,

,

,

,

,

,

,

,

,

,

,

摘要

直接语料交互使智能体能够直接查询原始文本,从而实现更高效的智能体搜索,在复杂任务中优于传统检索方法。

现代检索系统(https://huggingface.co/papers?q=retrieval%20systems),无论是基于词法还是语义,都通过固定的相似度接口来暴露语料,这种接口将访问压缩为推理前的单次 top-k 检索步骤。这种抽象是高效的,但对于智能体搜索(https://huggingface.co/papers?q=agentic%20search)来说,它成为了瓶颈:精确的词法约束、稀疏线索的联合、局部上下文检查以及多步假设修正,都难以通过调用传统的现成检索器来实现;而早期被过滤掉的证据也无法通过更强后端推理来恢复。智能体任务进一步放大了这一局限性,因为这些任务要求智能体编排多个步骤,包括发现中间实体、组合微弱线索以及在观察到部分证据后修正计划。为突破这一局限,我们研究了直接语料交互(https://huggingface.co/papers?q=direct%20corpus%20interaction)(DCI),其中智能体通过通用终端工具(https://huggingface.co/papers?q=terminal%20tools)(例如 grep、文件读取、shell 命令、轻量脚本)直接搜索原始语料,无需任何嵌入模型、向量索引或检索 API。此方法无需离线索引,并能自然适应不断演变的本地语料。在 IR 基准测试(https://huggingface.co/papers?q=IR%20benchmarks)和端到端智能体搜索(https://huggingface.co/papers?q=agentic%20search)任务中,这一简单设置在多个 BRIGHT 和 BEIR 数据集(https://huggingface.co/papers?q=BEIR%20datasets)上显著优于强稀疏、密集和重排序(https://huggingface.co/papers?q=reranking)基线,并在 BrowseComp-Plus(https://huggingface.co/papers?q=BrowseComp-Plus)和多跳 QA(https://huggingface.co/papers?q=multi-hop%20QA)上取得了强精度,且不依赖任何传统语义检索器。我们的结果表明,随着语言智能体能力变强,检索质量不仅取决于推理能力,还取决于模型与语料交互的接口分辨率;DCI 为此为智能体搜索(https://huggingface.co/papers?q=agentic%20search)开辟了更广阔的接口设计空间。

查看 arXiv 页面(https://arxiv.org/abs/2605.05242)查看 PDF(https://arxiv.org/pdf/2605.05242)GitHub207(https://github.com/DCI-Agent/DCI-Agent-Lite)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2605.05242)

引用本论文的模型0

没有模型关联本论文

请在模型 README.md 中引用 arxiv.org/abs/2605.05242 以链接到此页面。

引用本论文的数据集0

没有数据集关联本论文

请在数据集 README.md 中引用 arxiv.org/abs/2605.05242 以链接到此页面。

引用本论文的 Spaces2

包含本论文的收藏集5

浏览 5 个包含本论文的收藏集(https://huggingface.co/collections?paper=2605.05242)

Zhuofeng Li (@zhuofengli96475): 🔥 隆重介绍直接语料交互(DCI)!智能体搜索的最佳检索器就是不用检索器。

🚀 我们将整个智能体搜索流程——嵌入模型、向量索引、top-k 检索——全部替换成了 grepbash。🔧

📄 论文:https://t.co/h1CWuCtuQz

DCI

相似文章

超越语义相似性:通过直接语料库交互重新思考智能体搜索的检索

Hugging Face Daily Papers

论文提出了直接语料库交互(DCI),这是一种新颖的方法,允许AI代理使用标准终端工具直接查询原始文本,而不是传统的基于嵌入的检索。通过绕过固定的相似性接口和离线索引,DCI在多个信息检索和智能体搜索基准上显著优于传统的稀疏、密集和重排序基线。

@dair_ai: https://x.com/dair_ai/status/2056018543850754283

X AI KOLs Following

一份关于5月11日至17日顶级人工智能论文的综述,涵盖了用于长上下文预训练的Lighthouse Attention、grep与嵌入检索在编码代理中的对比,以及揭示LLMs中几何计算器的机制可解释性工作。