无资源，无基准，没问题？评估与改进针对无资源语言的代码生成LLMs

Hugging Face Daily Papers 2026/06/15 00:00 论文

code-generation no-resource-languages llms pre-training weight-transfer benchmarks instruction-following

摘要

本文通过构建基准测试并提出一种方法，将进一步预训练与权重差异迁移相结合，以更低的成本创建专门的指令遵循模型，从而解决无资源编程语言的代码生成问题。

大型语言模型（LLMs）显著推动了软件工程任务的自动化。一个突出的例子是代码生成，即LLM根据自然语言描述生成指定编程语言的代码。该领域的大部分研究集中在高资源语言（如Python或Java）上，这些语言受益于丰富的训练数据。少数研究探索了低资源语言，这些语言在训练语料库中代表性不足。相比之下，对于LLM几乎没有见过任何训练数据的无资源语言的研究仍基本空白。这些语言通常出现在工业界，组织开发专有或领域特定语言，而这些语言不被GitHub Copilot等商业工具支持。这导致公司需要部署自己的内部代码推荐器。为了探讨在此背景下的可能解决方案，我们基于两种近期提出的、可用训练数据极少的编程语言，构建并发布了三个针对无资源语言的代码生成基准测试。利用这些基准测试，我们试验了多种教导LLM关于无资源语言的解决方案，包括基于提示的技术以及利用少量数据进行的预训练和微调。虽然进一步预训练在无资源语言上取得了最大的性能提升，但直接将其应用于指令调优模型会损害其遵循指令的能力。为了解决这个问题，我们从基础模型开始，在目标语言上进一步预训练，然后通过从指令模型转移权重差异来注入指令遵循能力。这种方法显著提高了无资源环境下的代码生成能力，使公司能够以较低成本部署专门的指令模型，而无需承担指令微调的计算成本。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:27

论文页面 - 没有资源、没有基准测试就没有问题？评估和改进面向无资源语言的代码生成大语言模型

来源：https://huggingface.co/papers/2606.16827

摘要

本研究针对无资源编程语言的代码生成挑战，通过构建基准测试并提出一种方法——结合进一步预训练与权重差异迁移——以降低计算成本的代价创建专门的指令遵循模型。

大语言模型 (LLMs) 显著推进了软件工程任务的自动化。一个突出的例子是代码生成，即 LLM 根据自然语言描述生成指定编程语言的代码。该领域的大多数研究集中在高资源语言（如 Python 或 Java）上，这些语言受益于丰富的训练数据。少量工作探索了低资源语言（这些语言在训练语料中代表性不足）。相比之下，无资源语言——即 LLM 几乎未见过任何训练数据的语言——在很大程度上仍未得到研究。这类语言通常出现在工业界，组织开发了专有或领域特定语言，而这些语言不受 GitHub Copilot 等商业工具支持。这导致公司需要部署自己的内部代码推荐器。为了研究此背景下的可行解决方案，我们基于两种近期提出的、可用训练数据极少的编程语言，构建并发布了三个面向无资源语言的代码生成基准测试。利用这些基准测试，我们实验了几种教会 LLM 处理无资源语言的解决方案，包括基于提示的技术以及利用少量可用数据的预训练和微调。虽然进一步的预训练为无资源语言带来了最大的性能提升，但将其直接应用于指令微调模型会损害其遵循指令的能力。为解决此问题，我们从基础模型开始，进一步在目标语言上预训练，然后通过从指令模型进行权重差异迁移来注入指令遵循能力。这种方法显著提升了无资源场景下的代码生成能力，使公司能够廉价地部署专门的指令模型，而无需承担指令微调的计算成本。

查看 arXiv 页面 (https://arxiv.org/abs/2606.16827)查看 PDF (https://arxiv.org/pdf/2606.16827)GitHub1 (https://github.com/Devy99/no-resource-pl-study)添加到集合 (https://huggingface.co/login?next=%2Fpapers%2F2606.16827)

在您的 agent 中获取此论文：

hf papers read 2606\.16827

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型0

没有模型链接到此论文

在模型 README.md 中引用 arxiv.org/abs/2606.16827，以在此页面链接。

引用此论文的数据集0

没有数据集链接到此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.16827，以在此页面链接。

引用此论文的 Spaces0

没有 Space 链接到此论文

在 Space README.md 中引用 arxiv.org/abs/2606.16827，以在此页面链接。

包含此论文的收藏集0

没有包含此论文的收藏集

将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以在此页面链接。

无资源，无基准，没问题？评估与改进针对无资源语言的代码生成LLMs

论文页面 - 没有资源、没有基准测试就没有问题？评估和改进面向无资源语言的代码生成大语言模型

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的 Spaces0

包含此论文的收藏集0

相似文章

本地LLM实战测试：代码生成、质量与速度权衡

实际环境中的多语言多模态大语言模型：面向低资源语言的构建

现成LLM作为过程评分器：数学推理中无需训练的PRM替代方案

SkillLearnBench：面向真实任务代理技能生成的持续学习方法基准

@polynoamial: https://x.com/polynoamial/status/2064210146558136827

提交意见反馈