无资源,无基准,没问题?评估与改进针对无资源语言的代码生成LLMs

Hugging Face Daily Papers 论文

摘要

本文通过构建基准测试并提出一种方法,将进一步预训练与权重差异迁移相结合,以更低的成本创建专门的指令遵循模型,从而解决无资源编程语言的代码生成问题。

大型语言模型(LLMs)显著推动了软件工程任务的自动化。一个突出的例子是代码生成,即LLM根据自然语言描述生成指定编程语言的代码。该领域的大部分研究集中在高资源语言(如Python或Java)上,这些语言受益于丰富的训练数据。少数研究探索了低资源语言,这些语言在训练语料库中代表性不足。相比之下,对于LLM几乎没有见过任何训练数据的无资源语言的研究仍基本空白。这些语言通常出现在工业界,组织开发专有或领域特定语言,而这些语言不被GitHub Copilot等商业工具支持。这导致公司需要部署自己的内部代码推荐器。为了探讨在此背景下的可能解决方案,我们基于两种近期提出的、可用训练数据极少的编程语言,构建并发布了三个针对无资源语言的代码生成基准测试。利用这些基准测试,我们试验了多种教导LLM关于无资源语言的解决方案,包括基于提示的技术以及利用少量数据进行的预训练和微调。虽然进一步预训练在无资源语言上取得了最大的性能提升,但直接将其应用于指令调优模型会损害其遵循指令的能力。为了解决这个问题,我们从基础模型开始,在目标语言上进一步预训练,然后通过从指令模型转移权重差异来注入指令遵循能力。这种方法显著提高了无资源环境下的代码生成能力,使公司能够以较低成本部署专门的指令模型,而无需承担指令微调的计算成本。
查看原文
查看缓存全文

缓存时间: 2026/06/20 14:27

论文页面 - 没有资源、没有基准测试就没有问题?评估和改进面向无资源语言的代码生成大语言模型

来源:https://huggingface.co/papers/2606.16827

摘要

本研究针对无资源编程语言的代码生成挑战,通过构建基准测试并提出一种方法——结合进一步预训练与权重差异迁移——以降低计算成本的代价创建专门的指令遵循模型。

大语言模型 (LLMs) 显著推进了软件工程任务的自动化。一个突出的例子是代码生成,即 LLM 根据自然语言描述生成指定编程语言的代码。该领域的大多数研究集中在高资源语言(如 Python 或 Java)上,这些语言受益于丰富的训练数据。少量工作探索了低资源语言(这些语言在训练语料中代表性不足)。相比之下,无资源语言——即 LLM 几乎未见过任何训练数据的语言——在很大程度上仍未得到研究。这类语言通常出现在工业界,组织开发了专有或领域特定语言,而这些语言不受 GitHub Copilot 等商业工具支持。这导致公司需要部署自己的内部代码推荐器。为了研究此背景下的可行解决方案,我们基于两种近期提出的、可用训练数据极少的编程语言,构建并发布了三个面向无资源语言的代码生成基准测试。利用这些基准测试,我们实验了几种教会 LLM 处理无资源语言的解决方案,包括基于提示的技术以及利用少量可用数据的预训练和微调。虽然进一步的预训练为无资源语言带来了最大的性能提升,但将其直接应用于指令微调模型会损害其遵循指令的能力。为解决此问题,我们从基础模型开始,进一步在目标语言上预训练,然后通过从指令模型进行权重差异迁移来注入指令遵循能力。这种方法显著提升了无资源场景下的代码生成能力,使公司能够廉价地部署专门的指令模型,而无需承担指令微调的计算成本。

查看 arXiv 页面 (https://arxiv.org/abs/2606.16827)查看 PDF (https://arxiv.org/pdf/2606.16827)GitHub1 (https://github.com/Devy99/no-resource-pl-study)添加到集合 (https://huggingface.co/login?next=%2Fpapers%2F2606.16827)

在您的 agent 中获取此论文:

hf papers read 2606\.16827

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.16827,以在此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.16827,以在此页面链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.16827,以在此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以在此页面链接。

相似文章

@polynoamial: https://x.com/polynoamial/status/2064210146558136827

X AI KOLs Following

本文认为,LLM基准测试性能越来越依赖于测试时的计算量,而当前的评估方法在控制推理预算时无法捕捉到能力的提升。它主张绘制性能与token数、成本或时间的关系图,并讨论了对安全评估的影响。