连接科学遗产:面向可持续知识转移的阿拉伯语-俄语平行语料库与大语言模型基准
摘要
本文提出了一个阿拉伯语-俄语科学翻译的基准,包括一个包含27,000个句对的混合平行语料库,以及使用LoRA微调的多语言模型(mT5、NLLB、Qwen)。最佳模型达到了BLEU分数23.15,该工作旨在降低阿拉伯语和俄语研究人员之间科学知识交流的语言障碍。
查看缓存全文
缓存时间: 2026/07/01 05:31
# 弥合科学遗产:面向可持续知识转移的阿拉伯语–俄语平行语料库与大型语言模型基准测试 来源:https://arxiv.org/html/2606.30943 11institutetext:喀山联邦大学,计算数学与信息技术学院,数据分析系,俄罗斯喀山 11email:MKArabov@kpfu\.ru ###### 摘要 俄语和阿拉伯语是科学交流的主要语言之一。语言障碍阻碍了这些群体之间研究成果的交流,从而影响了国际合作以及可持续发展相关研究的进展。 我们提出了一个用于阿拉伯语–俄语科学翻译的基准测试。该基准测试包含一个混合平行语料库,约有 27,000 个句子对,由科学摘要和通用领域文本(宗教、新闻、对话)汇编而成。我们使用 LoRA(秩为 8、16、32 和 64)对三个多语言语言模型——mT5-base(5.8 亿参数)、NLLB-200-distilled-1.3B(13 亿参数)和 Qwen2.5-7B-Instruct(70 亿参数)——进行了微调。 使用 QLoRA(秩为 8)的 Qwen2.5-7B 模型取得了 BLEU 23.15、chrF 43.89、BERTScore 0.906 和 COMET 0.758 的成绩。这比零样本基线提高了 4.36 BLEU 和 0.051 COMET。使用三个示例进行少样本提示并未提高性能,这表明需要进行特定领域的微调。 我们公开了这些模型、语料库和评估代码。通过降低科学文本的语言障碍,这项工作促进了阿拉伯语和俄语研究人员之间的知识交流。它有助于可持续伙伴关系(联合国可持续发展目标 17)和创新基础设施(可持续发展目标 9),与本次会议关注的技术驱动型可持续发展相契合。 ## 1 引言 俄语和阿拉伯语是科学交流的主要语言之一。俄语学术在物理、数学、工程和医学领域做出了基础性贡献——从罗巴切夫斯基和门捷列夫的工作到现代计算数学和空间研究。阿拉伯语世界拥有丰富的知识传统,涵盖天文学、医学和代数学,而当今海湾地区的研究机构正在为可持续发展科学、可再生能源和水资源管理做出贡献[8](https://arxiv.org/html/2606.30943#bib.bib8)。 尽管存在这些互补的科学传统,语言障碍仍然阻碍着这些群体之间的知识交流。虽然阿拉伯语–英语翻译已获得大量研究关注和资源开发[9](https://arxiv.org/html/2606.30943#bib.bib9),[7](https://arxiv.org/html/2606.30943#bib.bib7),但阿拉伯语–俄语这一语言对的资源仍然匮乏。考虑到这些地区之间的学术联系以及它们在可持续发展、能源转型和气候适应方面面临的共同挑战,这一差距是相关的。促进这些群体之间的知识转移可以帮助研究人员利用互补的专业知识,避免重复劳动,并加速在水资源管理、可再生能源和气候适应力等领域的进展。 多语言大语言模型的最新进展[1](https://arxiv.org/html/2606.30943#bib.bib1),[2](https://arxiv.org/html/2606.30943#bib.bib2)改进了机器翻译性能,然而它们对于阿拉伯语–俄语科学翻译的有效性尚未得到系统评估。该语言对的现有平行语料库主要集中在宗教文本、对话短语或通用领域内容,并且缺乏科学和技术翻译所需的专业术语。开源架构的激增——编码器-解码器模型(NLLB、mT5)和纯解码器指令微调模型(Qwen)——提出了一个问题:哪些方法最适合低资源科学翻译[14](https://arxiv.org/html/2606.30943#bib.bib14)。 为了填补这些空白,我们提出了一个面向阿拉伯语–俄语科学翻译的基准测试,其贡献如下: 1. 1\. 一个包含约 27,000 个训练示例的混合平行语料库,由科学摘要和六个通用领域来源(宗教、新闻、对话、词典、圣经和 Tatoeba)构建而成,确保了领域适应性和语言多样性。 2. 2\. 对三种不同大小的多语言大语言模型——mT5-base(5.8 亿)、NLLB-200-distilled-1.3B(13 亿)和 Qwen2.5-7B-Instruct(70 亿)——使用低秩适应 (LoRA)[1](https://arxiv.org/html/2606.30943#bib.bib1) 和 QLoRA[2](https://arxiv.org/html/2606.30943#bib.bib2) 在秩 8、16、32 和 64 下进行了微调,并进行了系统评估。 3. 3\. 使用包括 BLEU[4](https://arxiv.org/html/2606.30943#bib.bib4)、chrF[6](https://arxiv.org/html/2606.30943#bib.bib6)、BERTScore[5](https://arxiv.org/html/2606.30943#bib.bib5) 和 COMET[3](https://arxiv.org/html/2606.30943#bib.bib3) 在内的自动指标进行了严格的比较分析,为未来研究建立了可复现的基线。 4. 4\. 公开发布所有微调后的模型、评估流程以及整理好的语料库,以促进阿拉伯语–俄语翻译社区的可复现研究和实际部署。 结果表明,使用 QLoRA(秩为 8)微调的 Qwen2.5-7B-Instruct 模型达到了 BLEU 得分 23.15 和 COMET 得分 0.758,比零样本基线提高了 4.36 BLEU 和 0.051 COMET。使用三个上下文示例进行少样本提示并未提高性能,这表明需要特定领域的微调。较小的编码器-解码器模型(如 mT5-base),即使采用参数高效微调,也无法为该语言对实现可接受的翻译质量,这表明阿拉伯语–俄语科学翻译存在最低模型容量要求。 通过实现高质量、自动化的科学内容翻译,我们的工作消除了阿拉伯语和俄语研究社区之间的知识转移障碍。这种转移对于可持续发展科学尤为重要,因为荒漠化、水资源短缺和可再生能源整合等挑战需要国际合作和跨语言边界的研究成果交流。通过对用于阿拉伯语–俄语科学翻译的大语言模型进行系统基准测试,本研究为减少语言障碍和促进具有互补科学专长的地区之间的可持续知识交流提供了一个可复制的框架。 ## 2 相关工作 本节回顾了三个相互关联领域的相关文献:阿拉伯语机器翻译和平行语料库、多语言大语言模型和参数高效微调,以及跨文字自然语言处理与翻译评估。我们考察了先前工作的贡献和局限性,以确定本研究要解决的研究空白。 ### 2\.1 阿拉伯语机器翻译和平行语料库 阿拉伯语机器翻译领域在过去十年中不断发展,从统计方法过渡到神经架构,再到最近的大语言模型。Hadj Ameur 和 Guessoum[8](https://arxiv.org/html/2606.30943#bib.bib8) 对阿拉伯语机器翻译进行了全面综述,记录了从基于规则和统计系统到早期神经模型的进展。他们的分析突出了阿拉伯语机器翻译中持续存在的挑战,包括形态复杂性、方言差异以及许多语言对缺乏高质量平行语料库的问题。 虽然已为阿拉伯语–英语翻译开发了大量资源[9](https://arxiv.org/html/2606.30943#bib.bib9),但阿拉伯语–俄语语言对仍然资源匮乏。现有的阿拉伯语–俄语平行语料库主要限于宗教文本、对话短语和通用领域内容。OSACT 研讨会系列[15](https://arxiv.org/html/2606.30943#bib.bib15) 已经举办了关于阿拉伯语大语言模型幻觉和方言到现代标准阿拉伯语翻译的共享任务,然而俄语方向仍未被探索。 Alrashed 和 Orabona[12](https://arxiv.org/html/2606.30943#bib.bib12) 最近的工作通过系统的回收、重新过滤和去重,解决了阿拉伯语预训练语料库构建的挑战。他们的 AraMix 语料库包含约 1780 亿个词元,覆盖 1.79 亿个文档,表明独立收集的语料库中近 60% 的词元是重复的。虽然他们的工作侧重于单语预训练而非翻译,但它强调了数据质量和多样性的重要性——我们在构建混合平行语料库时采用了这些原则。 现有阿拉伯语机器翻译研究的一个局限性是主要关注英语作为目标语言。虽然阿拉伯语–英语翻译受益于丰富的平行数据,但阿拉伯语–俄语这一语言对却面临数据匮乏的问题。考虑到阿拉伯语和俄语研究社区之间的科学合作潜力,这一差距是显著的。我们的工作通过构建一个专门针对科学阿拉伯语–俄语翻译的混合平行语料库来解决这一差距。 ### 2\.2 多语言大语言模型与参数高效微调 多语言大语言模型的出现改变了机器翻译研究。诸如 mT5、NLLB 和 Qwen 等模型已经展示了在数百个语言对上的零样本和少样本翻译能力。 mT5(多语言 T5)模型由 Xue 等人[18](https://arxiv.org/html/2606.30943#bib.bib18) 提出,是一种大规模多语言的 T5 变体,在基于 Common Crawl 的数据集上预训练,覆盖 101 种语言。作者详细介绍了 mT5 的设计和修改后的训练,并在许多多语言基准测试中展示了其最先进的性能。虽然 mT5 在许多语言对上表现出色,但其对阿拉伯语–俄语翻译的有效性,特别是对于科学领域,尚未得到系统评估。该模型处理阿拉伯语(闪语族)和俄语(斯拉夫语族)之间形态和句法差异的能力仍不清楚。 NLLB(没有语言被遗忘)项目代表了多语言翻译的进步,覆盖 200 多种语言,并在许多低资源语言对上取得了最先进的结果。然而,NLLB 的架构和训练方法优先考虑广度而非特定语言对的深度。我们对 NLLB-200-distilled-1.3B 的实验旨在确定这种广泛覆盖是否能转化为针对专门的阿拉伯语–俄语科学翻译任务的有效性能。 Song 等人[14](https://arxiv.org/html/2606.30943#bib.bib14) 最近的工作首次对 200 种语言的小语言模型进行了大规模评估,揭示了低资源语言的系统性表现不佳。他们的发现表明模型容量可能是一个关键因素,这促使我们将三个不同规模类别——5.8 亿(mT5-base)、13 亿(NLLB-distilled)和 70 亿(Qwen)——的模型纳入研究,以实证确定可接受的阿拉伯语–俄语科学翻译质量所需的最低容量。 来自阿里云的 Qwen2.5 系列于 2024 年 9 月发布,代表了新一代指令微调的纯解码器模型,具有强大的多语言能力。其 70 亿参数指令微调变体展示在知识、编码和数学能力方面的改进。虽然 Qwen 在各种自然语言处理基准测试中表现出色,但其针对阿拉伯语–俄语的翻译能力仍未得到描述。我们的工作提供了对 Qwen 在该语言对上的首次系统评估,考察了零样本和微调后的性能。 参数高效微调技术的出现降低了将大语言模型适应特定领域和语言对的计算成本。低秩适应 (LoRA)[1](https://arxiv.org/html/2606.30943#bib.bib1) 将可训练的低秩分解矩阵注入预训练模型的各层,在仅更新一小部分参数的情况下实现了与全微调相当的性能。 QLoRA[2](https://arxiv.org/html/2606.30943#bib.bib2) 通过 4 位量化扩展了 LoRA,使得能够在消费级硬件上高效微调 70 亿参数及以上的模型。这项技术对于计算资源有限的低资源场景尤其宝贵。我们的工作利用 QLoRA 微调 Qwen2.5-7B 模型,为量化微调在多语言翻译中有效性的日益增长的证据做出了贡献。 Arabov 和 Khaybullina[13](https://arxiv.org/html/2606.30943#bib.bib13) 将 LoRA 和 QLoRA 应用于巴什基尔语(突厥语族的一种低资源黏着语),证明在 70 亿参数级别的模型上使用 QLoRA 是质量和计算成本之间的有效折中。他们的工作为我们的研究提供了方法论基础,尽管巴什基尔语–俄语翻译涉及的挑战与阿拉伯语–俄语翻译不同。 文献中的一个空白是缺乏针对特定语言对和领域的 LoRA 秩优化的系统研究。大多数现有工作要么使用固定秩(通常为 8 或 16)而不加说明,要么孤立地探索秩,而不是作为综合比较框架的一部分。我们的研究通过系统评估三种不同模型架构在 LoRA 秩为 8、16、32 和 64 下的表现来解决这一空白,为从事阿拉伯语–俄语翻译的实践者提供经验指导。 ### 2\.3 跨文字自然语言处理与翻译评估 我们的工作建立在关于低资源、跨文字自然语言处理任务的更广泛研究议程之上。Arabov[16](https://arxiv.org/html/2606.30943#bib.bib16) 引入了 TajPersLexon,一个包含 40,112 个单词和短句对的塔吉克语–波斯语平行词汇资源,表明大型多语言句子变换器在精确词汇匹配上失败,而一个可解释的混合模型在光学字符识别后校正任务中达到了 96.4% 的准确率。这项工作为在文字间以最小计算资源构建平行资源确立了方法论原则。 在此基础上,Kurbonovich[17](https://arxiv.org/html/2606.30943#bib.bib17) 开发了一个用于塔吉克语–波斯语音译的字符级序列到序列变换器,实现了比基于词典和循环神经基线更低的字符错误率。他们对跨词汇类别性能的分析提供了与我们的阿拉伯语–俄语翻译任务相关的见解,在该任务中,由于形态复杂性,字符级处理同样至关重要。 虽然塔吉克语–波斯语音译和阿拉伯语–俄语翻译在范围上有所不同,但它们共享基本挑战:(1)为低资源语言对构建高质量的平行资源,(2)处理跨文字表示,以及(3)在可复现条件下评估模型。当前研究将这一范式从单词级音译扩展到句子级科学翻译,从塔吉克语–波斯语扩展到阿拉伯语–俄语,从词汇资源扩展到包含 27,000 个训练示例的大规模语料库。 准确的评估对于推进机器翻译研究至关重要。BLEU 指标[4](https://arxiv.org/html/2606.30943#bib.bib4) 作为自动机器翻译评估的标准已有二十多年,衡量系统输出与参考译文之间的 n-gram 重叠。然而,BLEU 对精确匹
相似文章
提升科学论述:科学领域的机器翻译
本文介绍了针对西班牙语-英语、法语-英语和葡萄牙语-英语的科学机器翻译平行语料库和单语语料库的开发,涉及四个领域:癌症研究、能源研究、神经科学和交通运输。这些语料库用于微调神经机器翻译系统,以解决科学文本中专业词汇和句法带来的挑战。
当相似意味着不同:评估LLM在阿拉伯语-希伯来语同源词上的表现
本文介绍了SemCog Bench,这是一个精心整理的基准测试,包含1,858个阿拉伯语-希伯来语词对,并带有句子级别的注释,用于评估LLM区分真同源词、假同源词和借词的能力。结果显示,模型在真同源词上准确率很高,但在假同源词上准确率大幅下降,突显了跨语言语义推理中的一个关键局限性。
基于大型语言模型的阿拉伯语文本自动评分:文献综述
一篇文献综述,审视了基于LLM的阿拉伯语文本自动评分方法,涵盖简答题评分和作文评分,并提出了一个分类体系和比较分析。
MUSCAT:多语言科学对话基准
MUSCAT是一个新的多语言科学对话基准数据集,用于评估ASR系统在具有挑战性的多语言场景中的表现,包括代码混合、特定领域词汇和混合语言输入。该数据集包含使用不同语言的说话者之间关于科学论文的双语讨论,结果表明当前的最先进系统在应对这些多语言挑战时存在困难。
商业ASR系统在代码切换语音上的基准测试:阿拉伯语、波斯语和德语
本文提出了一个基准测试,评估了五个商业ASR系统在阿拉伯语-英语、波斯语-英语和德语-英语代码切换语音上的性能,使用两阶段管道为每个语言对选择300个样本,并通过WER和BERTScore评估性能。ElevenLabs Scribe v2在整体上取得了最低的WER(13.2%)和最高的BERTScore(0.936),并提供公开数据集。