超越检索:代码搜索的多任务基准与模型
摘要
本文介绍了 CoREB,这是一个针对代码搜索的、受数据污染限制的多任务基准测试,具备微调重排序能力,可评估文本到代码、代码到文本以及代码到代码的检索效果。
查看缓存全文
缓存时间: 2026/05/11 07:21
论文页面 - 超越检索:代码搜索的多任务基准与模型
来源:https://huggingface.co/papers/2605.04615
摘要
本文引入了一个新的代码搜索基准 CoREB,通过提供在文本到代码、代码到文本以及代码到代码检索任务上具有污染限制的多任务评估,并辅以微调的重排序能力,解决了现有数据集的局限性。
代码搜索 (https://huggingface.co/papers?q=Code%20search) 通常仅作为初级检索 (https://huggingface.co/papers?q=retrieval) 进行评估,尽管生产系统依赖于包含重排序 (https://huggingface.co/papers?q=reranking) 和开发者风格查询的更广泛流水线。现有基准还面临数据污染、标签噪声以及退化的二元相关性判断等问题。在本文中,我们介绍了 CoREB (https://huggingface.co/papers?q=CoREB),这是一个具有污染限制的多任务代码检索 (https://huggingface.co/papers?q=retrieval) 与重排序 (https://huggingface.co/papers?q=reranking) 基准,并配套了一个微调的代码重排序器,超越了单纯的检索 (https://huggingface.co/papers?q=retrieval),覆盖了完整的代码搜索 (https://huggingface.co/papers?q=code%20search) 流水线。CoREB (https://huggingface.co/papers?q=CoREB) 基于五种编程语言的 LiveCodeBench 问题的反事实改写构建,并以定时发布的形式提供,附带分级的相关性判断。我们在三个任务上对十一个嵌入模型 (https://huggingface.co/papers?q=embedding%20models) 和五个重排序器 (https://huggingface.co/papers?q=rerankers) 进行了基准测试:文本到代码 (https://huggingface.co/papers?q=text-to-code)、代码到文本 (https://huggingface.co/papers?q=code-to-text) 以及代码到代码。我们的实验揭示出:
① 针对代码优化的嵌入模型在代码到代码检索 (https://huggingface.co/papers?q=code-to-code%20retrieval) 中占据主导地位(比通用编码器高出约 2 倍),但没有单一模型能在所有三个任务中胜出;
② 对于两个简短的关键词查询(最接近真实开发者搜索的格式),所有模型的 nDCG@10 均降至接近零;
③ 现成的重排序器 (https://huggingface.co/papers?q=rerankers) 表现出任务不对称性,在代码到代码任务上有 12 个点的波动,且没有任何基线模型在所有任务上取得净正面收益;
④ 我们微调的 CoREB (https://huggingface.co/papers?q=CoREB) 重排序器是首个在所有三个任务上取得一致增益的模型。数据与模型均已发布。
查看 arXiv 页面 (https://arxiv.org/abs/2605.04615) 查看 PDF (https://arxiv.org/pdf/2605.04615) 项目页面 (https://hq-bench.github.io/coreb-page/) GitHub0 (https://github.com/hq-bench/coreb) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.04615)
引用此论文的模型 1
hq-bench/coreb-code-reranker 文本分类 • 4B • 更新于 4 天前 • 62 • 3 (https://huggingface.co/hq-bench/coreb-code-reranker)
引用此论文的数据集 1
hq-bench/coreb 查看器 • 更新于约 5 小时前 • 34.2k • 55 • 5 (https://huggingface.co/datasets/hq-bench/coreb)
引用此论文的应用 (Spaces) 0
没有关联此论文的应用
在应用的 README.md 中引用 arxiv.org/abs/2605.04615 即可从此页面链接到它。
包含此论文的收藏集 3
相似文章
召回前重排序:大规模代码到代码检索的深度学习模型基准测试
本文对17种深度学习模型在大规模代码到代码检索的第一阶段召回中进行了基准测试,评估了它们在多种编程语言和数据集上的精确度、效率和可扩展性。文中介绍了基于LLM的代码标准化和查询重写方案,这些方案提高了性能较低模型的精确度。
语码转换信息检索:基准、分析与现有检索器的局限
研究者发布 CSR-L 与 CS-MTEB 基准,发现语码转换查询使 IR 系统性能下降高达 27%,并揭示嵌入空间 divergence 是当前多语言技术无法修复的根本原因。
SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情
新的基准论文《SWE Context Bench》测试编码代理能否跨任务复用知识,凸显了现有基准仅评估孤立问题解决的不足。作者讨论了外部记忆等解决方案,并提到了 langmem、mem0、supermemory 和 Greplica 等工具。
RARE:面向高相似语料库的冗余感知检索评估框架
RARE提出一种冗余感知检索评估框架,通过将文档拆分为原子事实,为金融、法律、专利等高相似度语料库构建更贴近现实的基准,暴露出当前检索器性能显著下降的问题。
@NielsRogge: http://paperswithco.de上的热门论文是"FastContext: Training Efficient Repository Explorer for Coding Agents"…
微软的FastContext是一篇热门论文,介绍了一个搭配编码代理用于高效代码检索的4B小模型,在SWE-Bench Multilingual上能与闭源系统匹敌。