Code2LoRA:超网络生成的适配器,用于软件演进中的代码语言模型

Hugging Face Daily Papers 论文

摘要

Code2LoRA 引入了一个超网络,该超网络能够从代码仓库中一次性前向传播生成 LoRA 适配器,使得冻结的代码大语言模型无需额外 token 即可适应仓库上下文,并高效支持不断演进的代码库。此外,它还提供了 RepoPeftBench,一个用于仓库条件代码建模的基准测试。

代码语言模型需要仓库级上下文来解析导入、API 和项目约定。现有方法通过长输入(通过 RAG 或依赖分析检索)或通过每个仓库的微调和 LoRA 来注入这些知识——这在仓库规模上成本高昂且对演进的代码库脆弱。我们引入了 Code2LoRA,一个超网络框架,生成仓库特定的 LoRA 适配器,有效注入仓库知识且推理时零 token 开销。Code2LoRA 支持两种使用场景:Code2LoRA-Static 将单个仓库快照转换为适配器,适用于理解稳定的代码库;而 Code2LoRA-Evo 维护一个由 GRU 隐藏状态支持的适配器,该状态在每个代码差异处更新,适用于演进的代码库的活跃开发。为了将 Code2LoRA 与参数高效微调基线进行比较,我们构建了 RepoPeftBench,一个包含 604 个 Python 仓库的基准测试,包含两个轨:静态轨有 40K 训练和 12K 测试断言补全任务,演进轨有 215K 提交派生的训练和 87K 提交派生的测试任务。在静态轨上,Code2LoRA-Static 达到了 63.8% 的跨仓库和 66.2% 的仓库内精确匹配,与每个仓库 LoRA 的上限相当;在演进轨上,Code2LoRA-Evo 达到了 60.3% 的跨仓库精确匹配(比单个共享 LoRA 高 5.2 个百分点)。Code2LoRA 的代码可在 https://anonymous.4open.science/r/code2lora-6857 找到;模型检查点和 RepoPeftBench 数据集可在 https://huggingface.co/code2lora 找到。
查看原文
查看缓存全文

缓存时间: 2026/06/05 18:10

论文页面 - Code2LoRA:面向软件演化的超网络生成式代码语言模型适配器

来源:https://huggingface.co/papers/2606.06492

仓库上下文是代码大语言模型的瓶颈:每次补全都需要了解项目的导入、API和约定,而目前我们通过RAG、依赖分析或不断拉长的提示词为每次查询付出上下文代价——或者为每个仓库微调一个LoRA,然后看着它在下一次提交后失效。

我们问一个简单的问题:如果仓库本身就是提示词,但只使用一次呢?Code2LoRA是一个超网络,它读取一个仓库(或其提交流),并在单次前向传播中为一个冻结的代码大语言模型生成LoRA适配器。仓库的知识存储在权重中,推理时无需增加额外token。

该框架包含两种变体。

  • Code2LoRA-Static将仓库快照转换为适配器,无需针对每个仓库进行训练,在仓库内评估中即可匹配每个仓库LoRA的上限,并在跨仓库场景中击败RAG/依赖解析上下文/FFT+RAG(精确匹配提升+9.9pp)。
  • Code2LoRA-Evo是我们最兴奋的部分:一个GRU遍历提交历史并以每个提交O(1)的复杂度刷新适配器,从而使模型紧跟活跃开发而非与之对抗。在严格截止日期后的92个仓库OOD保留集上——即编码器从未见过的仓库——Code2LoRA-Evo将Qwen2.5-Coder骨干从44.6%精确匹配提升至74.1%。

为了确保这一切可测量,我们还发布了RepoPeftBench:604个Python仓库,涉及62K静态任务和400K基于提交的断言补全任务,并包含仓库内、跨仓库和时间OOD划分。我们希望它能够成为一个有用的基准,用于研究仓库条件化和感知演化的代码建模,而不仅限于我们自己的设置。

代码:https://anonymous.4open.science/r/code2lora-6857 · 数据和模型:https://huggingface.co/code2lora

相似文章

JumpLoRA:大语言模型持续学习的稀疏适配器

arXiv cs.CL

JumpLoRA 引入了一个新颖的稀疏适配器框架,用于大语言模型的持续学习。该方法使用 JumpReLU 门控来动态隔离任务参数并防止灾难性遗忘。它增强了基于 LoRA 的方法,并超越了 ELLA 等最先进的持续学习方法。

Video2LoRA: 视觉-语言模型的参数化视频内化

Hugging Face Daily Papers

本文介绍Video2LoRA,一种直接从视频表示预测低秩适配(LoRA)权重的方法,能够在冻结的视觉-语言模型中实现高效的视频处理。它将视觉令牌负载降低最多1500倍,查询TTFT降低6-80倍,同时在视频摘要和字幕生成基准上保持性能。