无资源,无基准,没问题?评估与改进针对无资源语言的代码生成LLMs
摘要
本文通过构建基准测试并提出一种方法,将进一步预训练与权重差异迁移相结合,以更低的成本创建专门的指令遵循模型,从而解决无资源编程语言的代码生成问题。
查看缓存全文
缓存时间: 2026/06/20 14:27
论文页面 - 没有资源、没有基准测试就没有问题?评估和改进面向无资源语言的代码生成大语言模型
来源:https://huggingface.co/papers/2606.16827
摘要
本研究针对无资源编程语言的代码生成挑战,通过构建基准测试并提出一种方法——结合进一步预训练与权重差异迁移——以降低计算成本的代价创建专门的指令遵循模型。
大语言模型 (LLMs) 显著推进了软件工程任务的自动化。一个突出的例子是代码生成,即 LLM 根据自然语言描述生成指定编程语言的代码。该领域的大多数研究集中在高资源语言(如 Python 或 Java)上,这些语言受益于丰富的训练数据。少量工作探索了低资源语言(这些语言在训练语料中代表性不足)。相比之下,无资源语言——即 LLM 几乎未见过任何训练数据的语言——在很大程度上仍未得到研究。这类语言通常出现在工业界,组织开发了专有或领域特定语言,而这些语言不受 GitHub Copilot 等商业工具支持。这导致公司需要部署自己的内部代码推荐器。为了研究此背景下的可行解决方案,我们基于两种近期提出的、可用训练数据极少的编程语言,构建并发布了三个面向无资源语言的代码生成基准测试。利用这些基准测试,我们实验了几种教会 LLM 处理无资源语言的解决方案,包括基于提示的技术以及利用少量可用数据的预训练和微调。虽然进一步的预训练为无资源语言带来了最大的性能提升,但将其直接应用于指令微调模型会损害其遵循指令的能力。为解决此问题,我们从基础模型开始,进一步在目标语言上预训练,然后通过从指令模型进行权重差异迁移来注入指令遵循能力。这种方法显著提升了无资源场景下的代码生成能力,使公司能够廉价地部署专门的指令模型,而无需承担指令微调的计算成本。
查看 arXiv 页面 (https://arxiv.org/abs/2606.16827)查看 PDF (https://arxiv.org/pdf/2606.16827)GitHub1 (https://github.com/Devy99/no-resource-pl-study)添加到集合 (https://huggingface.co/login?next=%2Fpapers%2F2606.16827)
在您的 agent 中获取此论文:
hf papers read 2606\.16827
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型0
没有模型链接到此论文
在模型 README.md 中引用 arxiv.org/abs/2606.16827,以在此页面链接。
引用此论文的数据集0
没有数据集链接到此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.16827,以在此页面链接。
引用此论文的 Spaces0
没有 Space 链接到此论文
在 Space README.md 中引用 arxiv.org/abs/2606.16827,以在此页面链接。
包含此论文的收藏集0
没有包含此论文的收藏集
将此论文添加到一个收藏集 (https://huggingface.co/new-collection) 以在此页面链接。
相似文章
本地LLM实战测试:代码生成、质量与速度权衡
作者构建了一个基准测试框架,用于评估本地LLM在自动生成Go代码方面的能力,重点聚焦SIEM流水线的日志解析器生成,并发布了对比质量与速度的测试结果。
实际环境中的多语言多模态大语言模型:面向低资源语言的构建
本教程论文概述了如何为低资源语言构建多语言多模态大语言模型,涵盖数据创建、模型对齐、微调和评估,重点提供实用方案和动手资源。
现成LLM作为过程评分器:数学推理中无需训练的PRM替代方案
提出块级引导生成(Chunk-Level Guided Generation),一种无需训练的方法,利用现成LLM作为过程评分器,在小模型生成过程中选择固定长度的候选块,相比多数投票和PRM引导搜索,显著提升数学推理准确性。
SkillLearnBench:面向真实任务代理技能生成的持续学习方法基准
SkillLearnBench 推出首个评估 LLM 代理持续技能学习的基准,覆盖 20 项真实任务,结果显示尚无方法全面领先,单纯扩大模型规模也无法保证技能提升。
@polynoamial: https://x.com/polynoamial/status/2064210146558136827
本文认为,LLM基准测试性能越来越依赖于测试时的计算量,而当前的评估方法在控制推理预算时无法捕捉到能力的提升。它主张绘制性能与token数、成本或时间的关系图,并讨论了对安全评估的影响。