标签
微软的FastContext是一篇热门论文,介绍了一个搭配编码代理用于高效代码检索的4B小模型,在SWE-Bench Multilingual上能与闭源系统匹敌。
Semble是一个面向Agent的代码搜索工具,支持自然语言查询,能精准返回语义完整的代码片段,比传统grep+read方式节省98% token消耗,具有智能分块、双路检索和代码感知重排序等特性。
作者们详细描述了他们在构建代码索引系统的经验,最终得出结论:使用大语言模型(LLM)生成语义的图检索方式在性能上优于向量嵌入和纯抽象语法树(AST)解析。他们将该系统开源,命名为 Bytebell,它利用 Neo4j 存储语义上下文,以实现高效且精确的代码检索。
本研究论文探讨了代码检索中的文本改写策略,发现完全的自然语言改写能带来最大的性能提升。本文引入了基于熵的诊断方法,以帮助判断何时使用成本较高的 LLM 改写是有益的。