切勿复制粘贴!代码检索的改写策略
摘要
本研究论文探讨了代码检索中的文本改写策略,发现完全的自然语言改写能带来最大的性能提升。本文引入了基于熵的诊断方法,以帮助判断何时使用成本较高的 LLM 改写是有益的。
查看缓存全文
缓存时间: 2026/05/13 12:15
论文页面 - 请勿复制粘贴!代码检索的重写策略
来源:https://huggingface.co/papers/2605.08299
摘要
本研究探讨了不同的文本重写策略如何影响代码检索性能,发现完整的自然语言重写能带来最大的改进,并提出了基于熵的诊断方法,以确定在何时使用这种耗时的重写是有益的。
基于嵌入(Embedding-based)的代码检索(https://huggingface.co/papers?q=Embedding-based%20code%20retrieval)往往在编码器过度拟合表面语法时表现不佳。先前的工作通过利用大语言模型(LLM)将查询和语料库重新表述为规范化风格来缓解这一问题,但留下了两个悬而未决的问题:表示层面的改变有多大帮助?何时值得为每次查询调用 LLM?我们研究了三类重写策略的层级关系:风格化重述(stylistic rephrasing)(https://huggingface.co/papers?q=stylistic%20rephrasing)、自然语言增强的伪代码(NL-enriched PseudoCode)(https://huggingface.co/papers?q=NL-enriched%20PseudoCode)以及完整的自然语言转录(full Natural-Language transcription)(https://huggingface.co/papers?q=Natural-Language%20transcription)。我们在联合查询-语料库(QC,在线)和仅语料库(C,离线)增强设置下,在六个 CoIR 基准测试(https://huggingface.co/papers?q=CoIR%20benchmarks)中,使用五种编码器和跨越三个独立模型家族(Qwen、DeepSeek、Mistral)的三个重写器进行了实验。我们是首个将自然语言增强伪代码(https://huggingface.co/papers?q=NL-enriched%20PseudoCode)和片段级自然语言直接作为检索表示进行评估的研究,而非将其视为短暂的中间步骤。联合查询-语料库(QC)的完整自然语言重写带来了最大的增益(在 CT-Contest 基准上,MoSE-18 模型的 NDCG@10 绝对值提升 +0.51),而仅对语料库进行重写则在 90 种配置中的 56 种(约 62%)导致检索性能下降。我们引入了两种诊断指标:Delta H(https://huggingface.co/papers?q=Delta%20H)(标记熵 token entropy)(https://huggingface.co/papers?q=token%20entropy)和 Delta s(https://huggingface.co/papers?q=Delta%20s)(嵌入余弦相似度 embedding cosine)(https://huggingface.co/papers?q=embedding%20cosine),并证明 Delta H(https://huggingface.co/papers?q=Delta%20H)能够预测所有三种重写器家族(https://huggingface.co/papers?q=rewriter%20families)在 QC 设置下的检索增益(https://huggingface.co/papers?q=retrieval%20gain):在 DeepSeek+Codestral 上 pooled Spearman rho = +0.436 (p < 0.001);仅在 Codestral 上 rho = +0.593;在 Qwen 上 rho = +0.356。这确立了 Delta H(https://huggingface.co/papers?q=Delta%20H)作为一种廉价且与重写器无关的代理指标,用于在运行检索之前判断重写是否值得。我们的分析重新框架化了 LLM 重写(https://huggingface.co/papers?q=LLM%20rewriting)作为一种成本效益决策:它作为轻量级编码器在代码主导查询上的补救层最为有效,而对于强编码器或自然语言密集的查询,其收益递减。
查看 arXiv 页面 (https://arxiv.org/abs/2605.08299) 查看 PDF (https://arxiv.org/pdf/2605.08299) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.08299)
在您的代理中获取此论文:
hf papers read 2605\.08299
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 0
没有模型链接此论文
在模型的 README.md 中引用 arxiv.org/abs/2605.08299 以从此页面建立链接。
引用此论文的数据集 0
没有数据集链接此论文
在数据集的 README.md 中引用 arxiv.org/abs/2605.08299 以从此页面建立链接。
引用此论文的应用空间(Spaces) 0
没有 Space 链接此论文
在 Space 的 README.md 中引用 arxiv.org/abs/2605.08299 以从此页面建立链接。
包含此论文的合集 0
没有合集包含此论文
将此论文添加到合集 (https://huggingface.co/new-collection) 以从此页面建立链接。
相似文章
友善重写:通过重写实现良性投影以防御LLM数据投毒攻击
本文提出开放式良性重写(OBBR)作为针对大语言模型后门攻击的主动防御方法,通过将有害内容投影到良性提示来中和风险,相较于最先进的防御方法,安全性提升51%。
保留文本的有损文本压缩:策略性删除与LLM重构研究
本文系统性地基准测试了多种删除策略(如频率引导、基于熵的)用于有损文本压缩,其中LLM重构原文,结果表明词频删除等简单方法在保留率范围内仍具竞争力。
@dylan_works_: 写了一些我最近一直在研究的有趣发现:当 LLM agent 反复将自身经历改写成文本形式的“经验……
这篇研究博客文章表明,反复将 LLM agent 的经历改写成文本形式的“教训”往往会降低性能,而非提升性能。作者发现,在 ARC-AGI 和 ALFWorld 等基准测试中,情景记忆保留的效果优于抽象巩固。
超越检索:代码搜索的多任务基准与模型
本文介绍了 CoREB,这是一个针对代码搜索的、受数据污染限制的多任务基准测试,具备微调重排序能力,可评估文本到代码、代码到文本以及代码到代码的检索效果。
通过轨迹重写保护语言模型免受未授权蒸馏
研究者提出轨迹重写方法,可在保留答案正确性的同时阻止未授权的大语言模型知识蒸馏,并嵌入可检测的水印。