切勿复制粘贴!代码检索的改写策略

Hugging Face Daily Papers 论文

摘要

本研究论文探讨了代码检索中的文本改写策略,发现完全的自然语言改写能带来最大的性能提升。本文引入了基于熵的诊断方法,以帮助判断何时使用成本较高的 LLM 改写是有益的。

基于嵌入的代码检索往往因编码器对表面语法过拟合而表现不佳。先前的工作通过使用 LLM 将查询和语料库重新表述为标准化风格来缓解这一问题,但留下了两个未决问题:多大的表征偏移是有帮助的,以及何时为每个查询调用 LLM 是合理的?我们研究了三类改写策略的层级:风格化重述、富含自然语言的伪代码(NL-enriched PseudoCode)和完全自然语言转写。我们在六个 CoIR 基准测试、五种编码器和三种涵盖独立模型家族(Qwen、DeepSeek、Mistral)的改写器上,联合研究了查询-语料库(QC,在线)和仅语料库(C,离线)增强方案。我们是首个评估富含自然语言的伪代码和片段级自然语言作为直接检索表征(而非作为瞬态中间态)的研究。在 CT-Contest 基准上,使用 MoSE-18 时,QC 联合完全自然语言改写带来了最大的增益(NDCG@10 绝对提升 +0.51),而仅语料库改写在 90 种配置中的 56 种(约 62%)导致检索性能下降。我们引入了两种诊断指标:Delta H(词元熵)和 Delta s(嵌入余弦相似度),并表明 Delta H 在所有三种改写器家族中都能预测 QC 下的检索增益:在 DeepSeek+Codestral 上合并 Spearman rho = +0.436 (p < 0.001);在单独使用 Codestral 时 rho = +0.593;在 Qwen 上 rho = +0.356。这确立了 Delta H 作为一种廉价、与改写器无关的代理指标,用于在运行检索之前判断改写是否值得。我们的分析将 LLM 改写重构为一个成本效益决策:对于代码主导型查询上的轻量级编码器,它作为修复层最为有效;而对于强编码器或富含自然语言的查询,其收益递减。
查看原文
查看缓存全文

缓存时间: 2026/05/13 12:15

论文页面 - 请勿复制粘贴!代码检索的重写策略

来源:https://huggingface.co/papers/2605.08299

摘要

本研究探讨了不同的文本重写策略如何影响代码检索性能,发现完整的自然语言重写能带来最大的改进,并提出了基于熵的诊断方法,以确定在何时使用这种耗时的重写是有益的。

基于嵌入(Embedding-based)的代码检索(https://huggingface.co/papers?q=Embedding-based%20code%20retrieval)往往在编码器过度拟合表面语法时表现不佳。先前的工作通过利用大语言模型(LLM)将查询和语料库重新表述为规范化风格来缓解这一问题,但留下了两个悬而未决的问题:表示层面的改变有多大帮助?何时值得为每次查询调用 LLM?我们研究了三类重写策略的层级关系:风格化重述(stylistic rephrasing)(https://huggingface.co/papers?q=stylistic%20rephrasing)、自然语言增强的伪代码(NL-enriched PseudoCode)(https://huggingface.co/papers?q=NL-enriched%20PseudoCode)以及完整的自然语言转录(full Natural-Language transcription)(https://huggingface.co/papers?q=Natural-Language%20transcription)。我们在联合查询-语料库(QC,在线)和仅语料库(C,离线)增强设置下,在六个 CoIR 基准测试(https://huggingface.co/papers?q=CoIR%20benchmarks)中,使用五种编码器和跨越三个独立模型家族(Qwen、DeepSeek、Mistral)的三个重写器进行了实验。我们是首个将自然语言增强伪代码(https://huggingface.co/papers?q=NL-enriched%20PseudoCode)和片段级自然语言直接作为检索表示进行评估的研究,而非将其视为短暂的中间步骤。联合查询-语料库(QC)的完整自然语言重写带来了最大的增益(在 CT-Contest 基准上,MoSE-18 模型的 NDCG@10 绝对值提升 +0.51),而仅对语料库进行重写则在 90 种配置中的 56 种(约 62%)导致检索性能下降。我们引入了两种诊断指标:Delta H(https://huggingface.co/papers?q=Delta%20H)(标记熵 token entropy)(https://huggingface.co/papers?q=token%20entropy)和 Delta s(https://huggingface.co/papers?q=Delta%20s)(嵌入余弦相似度 embedding cosine)(https://huggingface.co/papers?q=embedding%20cosine),并证明 Delta H(https://huggingface.co/papers?q=Delta%20H)能够预测所有三种重写器家族(https://huggingface.co/papers?q=rewriter%20families)在 QC 设置下的检索增益(https://huggingface.co/papers?q=retrieval%20gain):在 DeepSeek+Codestral 上 pooled Spearman rho = +0.436 (p < 0.001);仅在 Codestral 上 rho = +0.593;在 Qwen 上 rho = +0.356。这确立了 Delta H(https://huggingface.co/papers?q=Delta%20H)作为一种廉价且与重写器无关的代理指标,用于在运行检索之前判断重写是否值得。我们的分析重新框架化了 LLM 重写(https://huggingface.co/papers?q=LLM%20rewriting)作为一种成本效益决策:它作为轻量级编码器在代码主导查询上的补救层最为有效,而对于强编码器或自然语言密集的查询,其收益递减。

查看 arXiv 页面 (https://arxiv.org/abs/2605.08299) 查看 PDF (https://arxiv.org/pdf/2605.08299) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08299)

在您的代理中获取此论文:

hf papers read 2605\.08299

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 0

没有模型链接此论文

在模型的 README.md 中引用 arxiv.org/abs/2605.08299 以从此页面建立链接。

引用此论文的数据集 0

没有数据集链接此论文

在数据集的 README.md 中引用 arxiv.org/abs/2605.08299 以从此页面建立链接。

引用此论文的应用空间(Spaces) 0

没有 Space 链接此论文

在 Space 的 README.md 中引用 arxiv.org/abs/2605.08299 以从此页面建立链接。

包含此论文的合集 0

没有合集包含此论文

将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面建立链接。

相似文章

超越检索:代码搜索的多任务基准与模型

Hugging Face Daily Papers

本文介绍了 CoREB,这是一个针对代码搜索的、受数据污染限制的多任务基准测试,具备微调重排序能力,可评估文本到代码、代码到文本以及代码到代码的检索效果。