超越检索：代码搜索的多任务基准与模型

Hugging Face Daily Papers 2026/05/06 00:00 论文

code-search benchmark retrieval reranking nlp machine-learning

摘要

本文介绍了 CoREB，这是一个针对代码搜索的、受数据污染限制的多任务基准测试，具备微调重排序能力，可评估文本到代码、代码到文本以及代码到代码的检索效果。

代码搜索通常仅被评估为第一阶段的检索任务，尽管生产环境中的系统依赖于包含重排序和开发者风格查询的更广泛的流水线。现有的基准测试还面临数据污染、标签噪声以及退化的二元相关性等问题。在本文中，我们引入了 CoREB，这是一个受数据污染限制的多任务代码检索与重排序基准，并配套了一个经过微调的代码重排序模型，从而超越单纯的检索，覆盖完整的代码搜索流水线。CoREB 基于五种编程语言中经过反事实重写的 LiveCodeBench 题目构建，并以定时发布的形式提供带有分级相关性判断的数据。我们在三个任务上对十一种嵌入模型和五种重排序模型进行了基准测试：文本到代码、代码到文本以及代码到代码。我们的实验揭示了以下结果：\circone 代码专用嵌入模型在代码到代码检索中占据主导地位（优于通用编码器约 2 倍），但没有单一模型能在所有三个任务中获胜；\circtwo 短关键词查询（最接近真实开发者搜索的格式）导致所有模型的 nDCG@10 指标降至接近零；\circthree 现成的重排序模型存在任务不对称性，在代码到代码任务上波动幅度达 12 个百分点，且没有任何基线模型在所有任务中均取得正向净收益；\circfour 我们微调的 CoREB-Reranker 是首个在所有三个任务中取得一致增益的模型。相关数据和模型已开源。

查看原文

查看缓存全文

缓存时间: 2026/05/11 07:21

论文页面 - 超越检索：代码搜索的多任务基准与模型

来源：https://huggingface.co/papers/2605.04615

摘要

本文引入了一个新的代码搜索基准 CoREB，通过提供在文本到代码、代码到文本以及代码到代码检索任务上具有污染限制的多任务评估，并辅以微调的重排序能力，解决了现有数据集的局限性。

代码搜索 (https://huggingface.co/papers?q=Code%20search) 通常仅作为初级检索 (https://huggingface.co/papers?q=retrieval) 进行评估，尽管生产系统依赖于包含重排序 (https://huggingface.co/papers?q=reranking) 和开发者风格查询的更广泛流水线。现有基准还面临数据污染、标签噪声以及退化的二元相关性判断等问题。在本文中，我们介绍了 CoREB (https://huggingface.co/papers?q=CoREB)，这是一个具有污染限制的多任务代码检索 (https://huggingface.co/papers?q=retrieval) 与重排序 (https://huggingface.co/papers?q=reranking) 基准，并配套了一个微调的代码重排序器，超越了单纯的检索 (https://huggingface.co/papers?q=retrieval)，覆盖了完整的代码搜索 (https://huggingface.co/papers?q=code%20search) 流水线。CoREB (https://huggingface.co/papers?q=CoREB) 基于五种编程语言的 LiveCodeBench 问题的反事实改写构建，并以定时发布的形式提供，附带分级的相关性判断。我们在三个任务上对十一个嵌入模型 (https://huggingface.co/papers?q=embedding%20models) 和五个重排序器 (https://huggingface.co/papers?q=rerankers) 进行了基准测试：文本到代码 (https://huggingface.co/papers?q=text-to-code)、代码到文本 (https://huggingface.co/papers?q=code-to-text) 以及代码到代码。我们的实验揭示出：
① 针对代码优化的嵌入模型在代码到代码检索 (https://huggingface.co/papers?q=code-to-code%20retrieval) 中占据主导地位（比通用编码器高出约 2 倍），但没有单一模型能在所有三个任务中胜出；
② 对于两个简短的关键词查询（最接近真实开发者搜索的格式），所有模型的 nDCG@10 均降至接近零；
③ 现成的重排序器 (https://huggingface.co/papers?q=rerankers) 表现出任务不对称性，在代码到代码任务上有 12 个点的波动，且没有任何基线模型在所有任务上取得净正面收益；
④ 我们微调的 CoREB (https://huggingface.co/papers?q=CoREB) 重排序器是首个在所有三个任务上取得一致增益的模型。数据与模型均已发布。

查看 arXiv 页面 (https://arxiv.org/abs/2605.04615) 查看 PDF (https://arxiv.org/pdf/2605.04615) 项目页面 (https://hq-bench.github.io/coreb-page/) GitHub0 (https://github.com/hq-bench/coreb) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.04615)

引用此论文的模型 1

hq-bench/coreb-code-reranker 文本分类 • 4B • 更新于 4 天前 • 62 • 3 (https://huggingface.co/hq-bench/coreb-code-reranker)

引用此论文的数据集 1

hq-bench/coreb 查看器 • 更新于约 5 小时前 • 34.2k • 55 • 5 (https://huggingface.co/datasets/hq-bench/coreb)

引用此论文的应用 (Spaces) 0

没有关联此论文的应用

在应用的 README.md 中引用 arxiv.org/abs/2605.04615 即可从此页面链接到它。

超越检索：代码搜索的多任务基准与模型

论文页面 - 超越检索：代码搜索的多任务基准与模型

摘要

引用此论文的模型 1

hq-bench/coreb-code-reranker 文本分类 • 4B • 更新于 4 天前 • 62 • 3 (https://huggingface.co/hq-bench/coreb-code-reranker)

引用此论文的数据集 1

hq-bench/coreb 查看器 • 更新于约 5 小时前 • 34.2k • 55 • 5 (https://huggingface.co/datasets/hq-bench/coreb)

引用此论文的应用 (Spaces) 0

包含此论文的收藏集 3

相似文章

召回前重排序：大规模代码到代码检索的深度学习模型基准测试

语码转换信息检索：基准、分析与现有检索器的局限

SWE Context Bench 刚刚证明了一件我想很多编码代理用户已经感受到的事情

RARE：面向高相似语料库的冗余感知检索评估框架

@NielsRogge: http://paperswithco.de上的热门论文是"FastContext: Training Efficient Repository Explorer for Coding Agents"…

提交意见反馈