超越检索:代码搜索的多任务基准与模型

Hugging Face Daily Papers 论文

摘要

本文介绍了 CoREB,这是一个针对代码搜索的、受数据污染限制的多任务基准测试,具备微调重排序能力,可评估文本到代码、代码到文本以及代码到代码的检索效果。

代码搜索通常仅被评估为第一阶段的检索任务,尽管生产环境中的系统依赖于包含重排序和开发者风格查询的更广泛的流水线。现有的基准测试还面临数据污染、标签噪声以及退化的二元相关性等问题。在本文中,我们引入了 CoREB,这是一个受数据污染限制的多任务代码检索与重排序基准,并配套了一个经过微调的代码重排序模型,从而超越单纯的检索,覆盖完整的代码搜索流水线。CoREB 基于五种编程语言中经过反事实重写的 LiveCodeBench 题目构建,并以定时发布的形式提供带有分级相关性判断的数据。我们在三个任务上对十一种嵌入模型和五种重排序模型进行了基准测试:文本到代码、代码到文本以及代码到代码。我们的实验揭示了以下结果:\circone 代码专用嵌入模型在代码到代码检索中占据主导地位(优于通用编码器约 2 倍),但没有单一模型能在所有三个任务中获胜;\circtwo 短关键词查询(最接近真实开发者搜索的格式)导致所有模型的 nDCG@10 指标降至接近零;\circthree 现成的重排序模型存在任务不对称性,在代码到代码任务上波动幅度达 12 个百分点,且没有任何基线模型在所有任务中均取得正向净收益;\circfour 我们微调的 CoREB-Reranker 是首个在所有三个任务中取得一致增益的模型。相关数据和模型已开源。
查看原文
查看缓存全文

缓存时间: 2026/05/11 07:21

论文页面 - 超越检索:代码搜索的多任务基准与模型

来源:https://huggingface.co/papers/2605.04615

摘要

本文引入了一个新的代码搜索基准 CoREB,通过提供在文本到代码、代码到文本以及代码到代码检索任务上具有污染限制的多任务评估,并辅以微调的重排序能力,解决了现有数据集的局限性。

代码搜索 (https://huggingface.co/papers?q=Code%20search) 通常仅作为初级检索 (https://huggingface.co/papers?q=retrieval) 进行评估,尽管生产系统依赖于包含重排序 (https://huggingface.co/papers?q=reranking) 和开发者风格查询的更广泛流水线。现有基准还面临数据污染、标签噪声以及退化的二元相关性判断等问题。在本文中,我们介绍了 CoREB (https://huggingface.co/papers?q=CoREB),这是一个具有污染限制的多任务代码检索 (https://huggingface.co/papers?q=retrieval) 与重排序 (https://huggingface.co/papers?q=reranking) 基准,并配套了一个微调的代码重排序器,超越了单纯的检索 (https://huggingface.co/papers?q=retrieval),覆盖了完整的代码搜索 (https://huggingface.co/papers?q=code%20search) 流水线。CoREB (https://huggingface.co/papers?q=CoREB) 基于五种编程语言的 LiveCodeBench 问题的反事实改写构建,并以定时发布的形式提供,附带分级的相关性判断。我们在三个任务上对十一个嵌入模型 (https://huggingface.co/papers?q=embedding%20models) 和五个重排序器 (https://huggingface.co/papers?q=rerankers) 进行了基准测试:文本到代码 (https://huggingface.co/papers?q=text-to-code)、代码到文本 (https://huggingface.co/papers?q=code-to-text) 以及代码到代码。我们的实验揭示出:
① 针对代码优化的嵌入模型在代码到代码检索 (https://huggingface.co/papers?q=code-to-code%20retrieval) 中占据主导地位(比通用编码器高出约 2 倍),但没有单一模型能在所有三个任务中胜出;
② 对于两个简短的关键词查询(最接近真实开发者搜索的格式),所有模型的 nDCG@10 均降至接近零;
③ 现成的重排序器 (https://huggingface.co/papers?q=rerankers) 表现出任务不对称性,在代码到代码任务上有 12 个点的波动,且没有任何基线模型在所有任务上取得净正面收益;
④ 我们微调的 CoREB (https://huggingface.co/papers?q=CoREB) 重排序器是首个在所有三个任务上取得一致增益的模型。数据与模型均已发布。

查看 arXiv 页面 (https://arxiv.org/abs/2605.04615) 查看 PDF (https://arxiv.org/pdf/2605.04615) 项目页面 (https://hq-bench.github.io/coreb-page/) GitHub0 (https://github.com/hq-bench/coreb) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.04615)

引用此论文的模型 1

hq-bench/coreb-code-reranker 文本分类 • 4B • 更新于 4 天前 • 62 • 3 (https://huggingface.co/hq-bench/coreb-code-reranker)

引用此论文的数据集 1

hq-bench/coreb 查看器 • 更新于约 5 小时前 • 34.2k • 55 • 5 (https://huggingface.co/datasets/hq-bench/coreb)

引用此论文的应用 (Spaces) 0

没有关联此论文的应用

在应用的 README.md 中引用 arxiv.org/abs/2605.04615 即可从此页面链接到它。

包含此论文的收藏集 3

相似文章

语境之代价:在多模态检索增强生成中缓解文本偏差

arXiv cs.CL

本文识别并形式化了多模态RAG中的“再污染”现象,即添加准确上下文会导致模型因注意力崩溃(视觉盲区和位置偏差)而放弃正确预测。作者提出BAIR,一种无参数的推理时框架,能恢复视觉显著性并惩罚文本干扰因素,从而在医学、公平性和地理空间基准上提高可靠性。