超越检索:代码搜索的多任务基准与模型
摘要
本文介绍了 CoREB,这是一个针对代码搜索的、受数据污染限制的多任务基准测试,具备微调重排序能力,可评估文本到代码、代码到文本以及代码到代码的检索效果。
查看缓存全文
缓存时间: 2026/05/11 07:21
论文页面 - 超越检索:代码搜索的多任务基准与模型
来源:https://huggingface.co/papers/2605.04615
摘要
本文引入了一个新的代码搜索基准 CoREB,通过提供在文本到代码、代码到文本以及代码到代码检索任务上具有污染限制的多任务评估,并辅以微调的重排序能力,解决了现有数据集的局限性。
代码搜索 (https://huggingface.co/papers?q=Code%20search) 通常仅作为初级检索 (https://huggingface.co/papers?q=retrieval) 进行评估,尽管生产系统依赖于包含重排序 (https://huggingface.co/papers?q=reranking) 和开发者风格查询的更广泛流水线。现有基准还面临数据污染、标签噪声以及退化的二元相关性判断等问题。在本文中,我们介绍了 CoREB (https://huggingface.co/papers?q=CoREB),这是一个具有污染限制的多任务代码检索 (https://huggingface.co/papers?q=retrieval) 与重排序 (https://huggingface.co/papers?q=reranking) 基准,并配套了一个微调的代码重排序器,超越了单纯的检索 (https://huggingface.co/papers?q=retrieval),覆盖了完整的代码搜索 (https://huggingface.co/papers?q=code%20search) 流水线。CoREB (https://huggingface.co/papers?q=CoREB) 基于五种编程语言的 LiveCodeBench 问题的反事实改写构建,并以定时发布的形式提供,附带分级的相关性判断。我们在三个任务上对十一个嵌入模型 (https://huggingface.co/papers?q=embedding%20models) 和五个重排序器 (https://huggingface.co/papers?q=rerankers) 进行了基准测试:文本到代码 (https://huggingface.co/papers?q=text-to-code)、代码到文本 (https://huggingface.co/papers?q=code-to-text) 以及代码到代码。我们的实验揭示出:
① 针对代码优化的嵌入模型在代码到代码检索 (https://huggingface.co/papers?q=code-to-code%20retrieval) 中占据主导地位(比通用编码器高出约 2 倍),但没有单一模型能在所有三个任务中胜出;
② 对于两个简短的关键词查询(最接近真实开发者搜索的格式),所有模型的 nDCG@10 均降至接近零;
③ 现成的重排序器 (https://huggingface.co/papers?q=rerankers) 表现出任务不对称性,在代码到代码任务上有 12 个点的波动,且没有任何基线模型在所有任务上取得净正面收益;
④ 我们微调的 CoREB (https://huggingface.co/papers?q=CoREB) 重排序器是首个在所有三个任务上取得一致增益的模型。数据与模型均已发布。
查看 arXiv 页面 (https://arxiv.org/abs/2605.04615) 查看 PDF (https://arxiv.org/pdf/2605.04615) 项目页面 (https://hq-bench.github.io/coreb-page/) GitHub0 (https://github.com/hq-bench/coreb) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2605.04615)
引用此论文的模型 1
hq-bench/coreb-code-reranker 文本分类 • 4B • 更新于 4 天前 • 62 • 3 (https://huggingface.co/hq-bench/coreb-code-reranker)
引用此论文的数据集 1
hq-bench/coreb 查看器 • 更新于约 5 小时前 • 34.2k • 55 • 5 (https://huggingface.co/datasets/hq-bench/coreb)
引用此论文的应用 (Spaces) 0
没有关联此论文的应用
在应用的 README.md 中引用 arxiv.org/abs/2605.04615 即可从此页面链接到它。
包含此论文的收藏集 3
相似文章
语码转换信息检索:基准、分析与现有检索器的局限
研究者发布 CSR-L 与 CS-MTEB 基准,发现语码转换查询使 IR 系统性能下降高达 27%,并揭示嵌入空间 divergence 是当前多语言技术无法修复的根本原因。
RARE:面向高相似语料库的冗余感知检索评估框架
RARE提出一种冗余感知检索评估框架,通过将文档拆分为原子事实,为金融、法律、专利等高相似度语料库构建更贴近现实的基准,暴露出当前检索器性能显著下降的问题。
重新思考推理密集型检索:评估并提升智能体搜索系统中的检索器
本文引入了 BRIGHT-Pro,这是一个针对推理密集型检索的新基准,以及 RTriever-Synth,这是一个用于微调 RTriever-4B 以在智能体搜索系统中提升性能的合成语料库。
语境之代价:在多模态检索增强生成中缓解文本偏差
本文识别并形式化了多模态RAG中的“再污染”现象,即添加准确上下文会导致模型因注意力崩溃(视觉盲区和位置偏差)而放弃正确预测。作者提出BAIR,一种无参数的推理时框架,能恢复视觉显著性并惩罚文本干扰因素,从而在医学、公平性和地理空间基准上提高可靠性。
@dianetc_: 我们着手构建一个更好的检索器,因此寻找了最难的IR基准测试。针对每个基准,我们询问了还有多少提升空间……
作者介绍了OBLIQ-Bench,这是一个新基准,用于评估信息检索系统在明显更难的搜索查询上的表现,而之前的基准测试几乎没有剩余提升空间。