LLiMba：单卡GPU上的撒丁语——将3B参数语言模型适配至一种濒临消失的罗曼语族语言

arXiv cs.CL 2026/05/12 04:00 论文

llm low-resource-languages fine-tuning sardinian qwen adapter-efficiency

摘要

本文介绍了 LLiMba，这是一个基于 Qwen2.5 适配而来的3B参数模型，旨在支持撒丁语。该模型在单张消费级 GPU 上通过继续预训练和有监督微调完成训练。文章评估了多种 LoRA 配置，发现适配器容量对低资源语言适配的性能和事实准确性有显著影响。

arXiv:2605.09015v1 公告类型：新增摘要：撒丁语是一种罗曼语族语言，拥有约一百万使用者，但在现代自然语言处理（NLP）中几乎未见踪迹。商业服务不支持该语言，当前的语言模型也无法稳定地生成撒丁语。我们提出了 LLiMba，这是一个经过继续预训练（CPT）和有监督微调（SFT）适配的3B参数撒丁语就绪模型，基于 Qwen2.5-3B-Instruct 构建，并在单张24GB消费级 GPU 上完成训练。语料库包含1150万撒丁语 Token，涵盖利沃尔诺-萨沙里语、洛古多雷语和坎皮达内语，并补充了240万相关罗曼语族文本的 Token，以对抗语域模糊。在继续预训练后，模型在预留的撒丁语测试集上的困惑度降至 6.76，并在 FLORES-200 的所有六个翻译方向上均优于基座模型。我们在同等条件下比较了五种微调配置：全量微调、LoRA r64、rsLoRA r128、rsLoRA r256 以及 DoRA r256。rsLoRA r256 在所有翻译至撒丁语的方向上均表现最佳，从英语翻译的 BLEU 分数达到 28.5，而仅经过继续预训练时为 17.3，全量微调时为 21.0。秩消融实验表明，r128 的 BLEU 分数介于 LoRA r64 和 rsLoRA r256 之间，但也暴露了该指标无法捕捉的失效模式，例如产生了其他变体所没有的跨脚本泄漏现象。LoRA r64 相比更高秩的配置保留的有监督微调事实内容较少，并产生了更多自信的幻觉内容，尽管所有方法在面对训练数据中未出现的内容时均会产生幻觉。DoRA r256 产生的训练与评估差距最小，但事实准确性最差。研究结果表明，在将罗曼语族预训练基座适配至低资源罗曼语族目标语言时，适配器容量的重要性高于在 LoRA 变体之间的选择，更强的正则化并非在所有情况下都有益，且翻译指标虽然能对行为定性差异显著的配置进行平滑排序，但不足以全面反映模型表现。跨脚本的困惑度比较必须考虑字节回退分词的影响，这会压低非拉丁字母脚本的指标数值。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/12 07:08

# LLiMba：单卡上的撒丁语——将3B语言模型适配至濒危罗曼语系语言

来源: https://arxiv.org/html/2605.09015

###### 摘要

撒丁语（Sardinian）是一种拥有约100万使用者的罗曼语系语言，在现代自然语言处理（NLP）领域几乎毫无存在感。商业服务不支持该语言，当前的语言模型也无法稳定生成撒丁语。我们提出了LLiMba，这是一个经过持续预训练（CPT）和在有监督微调（SFT）后适配的、具备撒丁语能力的3B参数模型。该模型基于Qwen2.5-3B-Instruct，仅需单张24 GB的消费级GPU即可完成训练。语料库包含1150万个撒丁语Token，涵盖共同撒丁语（LSC）、洛古多雷塞语（Logudorese）和坎皮达内塞语（Campidanese），并补充了240万个相关罗曼语文本Token作为回放数据，以防止风格模糊。经过持续预训练后，模型在保留的撒丁语测试集上的困惑度（Perplexity）降至6.76，并在FLORES-200基准的所有六个翻译方向上优于基座模型。我们在相同条件下比较了五种SFT配置：全参数微调、LoRA (r=64)、rsLoRA (r=128)、rsLoRA (r=256) 和 DoRA (r=256)。rsLoRA (r=256) 在所有向撒丁语翻译的方向上均获胜，从英语翻译的BLEU分数达到28.5，而CPT后为17.3，全参数微调为21.0。秩消融实验显示，r=128在BLEU分数上介于LoRA r=64和rsLoRA r=256之间，但揭示了该指标无法捕捉的失效模式，包括其他变体未出现的跨脚本泄漏。LoRA r=64比高秩配置保留了更少的SFT事实内容，并产生更多自信的幻觉，尽管所有方法在训练数据缺失的内容上均会产生幻觉。DoRA r=256在训练和评估之间的差距最小，但事实准确性最差。研究结果表明，对于将罗曼语系预训练基座适配到低资源罗曼语目标，适配器容量比LoRA变体的选择更重要；更强的正则化并非总是有益；翻译指标虽然能平滑地对配置进行排序，但这些配置在定性行为上存在显著差异。跨脚本的困惑度比较必须考虑字节回退（byte-fallback）分词的影响，这会压低非拉丁脚本的指标数值。

## 1 引言

撒丁语（ISO 639-3: srd）是一种在意大利撒丁岛由约100万人使用的罗曼语系语言。联合国教科文组织（UNESCO）将其归类为濒危语言。尽管该语言拥有深厚的人口基础和活跃的作家群体，但在商业NLP基础设施中几乎毫无存在感。没有主要的翻译服务支持它，语音助手也不理解它。当用撒丁语提示商业大型语言模型时，它们通常会退化为意大利语、葡萄牙语、西班牙语、加泰罗尼亚语、法语甚至英语；有些模型甚至完全拒绝回应。我们测试的一个模型将撒丁语的自称*sardu*与鱼（*sardine*）混淆。

这种“不可见性”的原因在于结构性问题。专有模型不针对撒丁语，因为用户基数太小，无法证明数据获取成本的合理性。开源模型不针对它，因为可用的训练数据过于稀疏，无法在网页级语料库中占据一席之地。标准的低资源NLP数据集（如OSCAR、Leipzig Corpora Collection、eBible语料库）包含极少或没有可用的撒丁语文本。撒丁语维基百科存在，但其规模比其他罗曼语维基百科小一个数量级甚至更多。

撒丁语的系统发育位置表明，适配应该是可行的。撒丁语与更广泛的罗曼语系共享拉丁词源、罗曼形态学和SVO（主-谓-宾）句法，特别是与意大利语、西班牙语、葡萄牙语和加泰罗尼亚语关系密切。编码了这些结构的多语言基座模型已经具备了所需的大部分语言脚手架。适配任务简化为教授特定于语言的词汇、正字法和习语，而不是从头学习一个语言家族。这使得撒丁语成为研究在已理解的语言家族内进行最少数据适配的一个有用案例。

最近的方法论参考是Chen等人（2025）[3]，他们报告了一种基于Qwen2.5-3B的两阶段持续预训练和有监督微调管道，用于藏语。他们的设置具有启发性，但在三个方面与我们相距甚远。首先，藏语使用非拉丁音节文字，这与字节回退分词相互作用，可能人为地压低困惑度。其次，藏语在类型学上与Qwen训练数据中的所有语言都相距甚远，因此适配是从极少的先验知识开始的。第三，Chen等人在其最佳翻译方向上报告的SFT阶段BLEU分数低于1，这留下了一个开放问题：当基座模型已经对目标语言家族有 substantial prior support 时，CPT和SFT管道的表现如何？

我们提出了*LLiMba*，一个基于Qwen2.5-3B-Instruct适配的、具备撒丁语能力的开源语言模型，仅在单张24 GB的消费级GPU上训练。训练管道从异构来源收集了约1350万个撒丁语Token，在去重和语言过滤后保留约1150万个Token，补充约240万个相关罗曼语文本Token作为对抗灾难性遗忘的回放数据，然后应用持续预训练，随后进行有监督微调。除了生成模型本身外，这项工作还在匹配的数据、硬件和评估条件下，对五种有监督微调配置进行了实证比较：

*   全参数微调
*   秩为64的LoRA
*   秩为256的rsLoRA
*   秩为256的DoRA

除了定量比较外，我们还记录了低资源罗曼语适配特有的失效模式：在迭代数据清洗后仍然存在的翻译借用（calques）、用于事实回忆的提示词敏感性，以及在没有任何训练示例的情况下出现的高温组合伪影。我们的困惑度数据进一步说明了为什么跨语言比较此类测量时必须谨慎，因为字节回退分词可能人为地压缩非拉丁脚本的损失值。整个管道在个人研究人员和小型实验室可获得的硬件上运行，配置和结果均有文档记录以便复现。

## 2 背景

最直接可比的系列工作是藏语适配文献。Chen等人（2025）[3]在Qwen2.5-3B上提出了两阶段持续预训练和有监督微调管道，这正是我们采用的基座模型和管道结构。T-LLaMA (Lv et al. 2025)[10]通过词汇扩展的持续预训练，将LLaMA2-7B适配到藏语，使用了22亿字符的语料库。Banzhida (Pan et al. 2025)[12]随后扩展了该方法，在精心策划的藏语数据集以及中文和英文回放数据上继续预训练Qwen2.5-7B。这些工作共同表明，两阶段适配对于低资源语言是可行的，但它们处理的是藏语，这与撒丁语在两个对我们分析至关重要的方面不同：它在类型学和正字学上与多语言基座模型预训练分布中的任何语言都相距甚远，且藏文脚本与字节回退分词的相互作用使基于损失的指标变得复杂。

我们工作中的基座模型Qwen2.5-3B-Instruct (Yang et al. 2024)[13]包含了大量的罗曼语系预训练，这改变了适配的起点以及出现的失效模式类型。Hu等人（2021）[6]引入了LoRA作为全参数微调的参数高效替代方案，训练低秩适配器以取代全权重更新。Kalajdzievski（2023）[7]表明，LoRA传统的$\alpha/r$缩放因子在高秩时会导致梯度崩溃；rsLoRA修正（$\alpha/\sqrt{r}$）恢复了稳定性，使高秩变得实用。DoRA (Liu et al. 2024)[9]将权重更新分解为幅度和方向并分别进行适配，旨在微调过程中保持基座模型的方向结构。Biderman等人（2024）[2]比较了编程和数学领域的持续预训练和指令微调中的LoRA和全参数微调，报告称当目标领域远离预训练分布时，LoRA的表现不如全参数微调，但在目标领域之外能更好地保留能力。这一发现直接影响了我们的决定：在语言适配领域偏移最大的CPT阶段使用全参数微调，并仅在偏移较小的SFT阶段比较适配器变体。

Baqar和Khanda（2025）[1]在20,000个FAQ查询上比较了RAG、LoRA和DoRA的事实性，报告称适配器方法可能会产生流畅但未能扎根于训练数据的输出，这是流利度和事实扎根之间的权衡。我们的SFT比较在低资源适配设置中重现了这一模式，其中效应的大小在匹配秩的LoRA、rsLoRA和DoRA之间系统地变化。

对于评估，FLORES-200基准 (NLLB Team 2022)[11]提供了跨越200种语言（包括撒丁语）的平行句子，广泛用于低资源翻译。我们采用它进行六个方向的翻译比较，并通过lm-evaluation-harness (Gao et al. 2023)[5]运行所有评估，以保持模型变体之间的一致性。我们报告BLEU和chrF；chrF对撒丁语中存在的形态丰富性和方言变异更为稳健，因为有效同义词或替代形式会被精确匹配的BLEU惩罚。

## 3 数据

训练数据分为三类：包含相关罗曼语回放文本的撒丁语预训练语料库、由指令对构建的有监督微调数据集，以及来自FLORES-200的保留评估集。

### 3.1 预训练语料库

我们从异构来源收集了约1350万个撒丁语文本Token。经过去重和语言过滤后，训练语料库中保留了约1150万个撒丁语Token。表1列出了准备后的组成情况。

**表1：准备后的预训练语料库组成。**

| Source | Documents | Tokens |
| :--- | :--- | :--- |
| Web scrape (six sites) | 8,110 | 4.90M |
| Sardinian Wikipedia | 6,309 | 2.58M |
| GlotCC CommonCrawl | 2,270 | 1.77M |
| Translated books (PDF, EPUB, markdown) | 409 | 2.01M |
| Poetry anthologies | 436 | 176K |
| Bilingual text and song lyrics | 84 | 39K |
| Total Sardinian | 17,618 | 11.48M |
| Romance replay (Wikipedia) | 652 | 2.44M |
| Combined corpus | 18,270 | 13.93M |

网络抓取涵盖了六个已验证的活跃网站，发布有关新闻、文化、技术和省级机构主题的撒丁语内容。书籍材料由世界文学的专业撒丁语翻译组成；这提供了语料库中最广泛的文学散文，具有网络源无法匹敌的风格和词汇多样性。诗歌选集涵盖1400年至1900年的地区诗歌，提取时保留换行符以保留诗歌结构。GlotCC贡献了过滤后的CommonCrawl文本，并与网络抓取大量重叠；在准备过程中移除了重叠部分，将GlotCC从3,790个原始文档减少到最终语料库中的2,270个。

语料库刻意跨越了三种主要书面变体：LSC（*Limba Sarda Comuna*，标准化形式）、洛古多雷塞语和坎皮达内塞语。这反映了撒丁语的实际出版情况：新闻网站使用LSC，机构文件使用坎皮达内塞语，文学作品跨越所有三种变体。模型针对输出使用LSC，但在输入上暴露于所有变体。

约240万个相关罗曼语文本Token，来自意大利语、西班牙语、葡萄牙语和加泰罗尼亚语维基百科，混合到语料库中，以减轻灾难性遗忘并防止撒丁语和意大利语之间的表征模糊。意大利语在回放中占主导地位，西班牙语、葡萄牙语和加泰罗尼亚语占比较小。回放文本不带语言标签；模型从文本本身学习区分语言，这与其在推理时将面临的条件相匹配。

语料库需要大量清洗。撒丁语网络源通常将撒丁语正文与意大利语导航、标题和页脚混合。标准语言检测工具不识别撒丁语，并将其可变地分类为意大利语、葡萄牙语、西班牙语或加泰罗尼亚语；我们利用这一点而不是与之对抗，保留被分类为这四种语言中任何一种的文档，仅移除被标记为英语、德语或法语的文档。具有高度重复模板结构的在线字典内容已从预训练文本中提取，以避免在其表面形式上过拟合。作者（母语人士）审查了约150份文档以抽查各来源的质量；审查确认，混合语言文档和书籍归属行因其撒丁语内容的价值而值得保留。

在对文档进行重叠分块后，语料库产生了19,152个训练示例。

### 3.2 SFT 数据

SFT池结合了机器翻译的指令数据和本地策划的材料，分为四个类别，如表2所述。

**表2：去重和上采样前的SFT数据组成。**

大部分数据来自Capybara数据集 (LDJnr)[8]，这是一个多轮指令调优集合，使用NLLB-200 3.3B (NLLB Team 2022)[11]机器翻译为撒丁语，NLLB-200本身是一个可以在与我们训练管道相同的消费级硬件上运行的模型。Capybara提供了指令类型的多样性（文学、数学、科学、推理、对话）。翻译质量参差不齐；输出通过自动化启发式方法（过滤极短和极长的响应，丢弃撒丁语文本未能通过基本检查的条目）和母语人士审查的组合进行清理。然而，翻译池中仍然残留着翻译借用，即用撒丁语词汇呈现的意大利语形态语法结构，这些结构在迭代清洗后仍然存在。我们将这些视为已知的局限性，并在第7节中返回讨论。

翻译对收集了来自多个来源的平行句子，为翻译任务提供显式监督。合成的指令是在Anthropic的Claude的帮助下生成的，使用撒丁语语法参考作为锚定上下文，并由作者逐条审查。与歌曲相关的对涵盖了有关撒丁语歌词的检索、识别和内容问题。

去重后，剩余12,716对。合成类别贡献了其中的422对（原始448对中的其余26对是其他条目的重复，在去重过程中被移除）。然后在数据集组装期间将合成类别的上采样因子为五，反映了这些对相对于机器翻译和批量翻译池具有更高的原生审查信心，贡献了1,688个额外副本。最终的SFT池包含14,404对，约1280万个Token。

SFT示例在其系统提示配置上有所不同。大多数携带一个撒丁语系统提示，将助手框定为撒丁语助手，翻译示例使用命名目标的提示词……

LLiMba：单卡GPU上的撒丁语——将3B参数语言模型适配至一种濒临消失的罗曼语族语言

相似文章

SOMA：通过小语言模型实现高效的 LLM 多轮对话服务

@cjzafir: 垂直语言模型（VLMs）正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……

Apple~Silicon 平台上的波兰语模型跨模型族系推测解码：基于扩展 UAG 的 MLX-LM 对 Bielik~11B 的经验评估

@tom_doerr: 在单个4GB GPU上运行70B大语言模型 https://github.com/lyogavin/airllm

在 H200 GPU 上微调 TranslateGemma-4B 以优化英语与威尔士语的双向翻译！

提交意见反馈