针对《古兰经》语音识别的预训练Transformer模型比较研究：语音表示、标签格式与数据集构成

arXiv cs.AI 2026/06/20 04:00 论文

quranic-asr automatic-speech-recognition transformer-models fine-tuning wav2vec2 hubert xls-r

摘要

本文系统性地实证研究了针对《古兰经》自动语音识别（ASR）的预训练Transformer模型（Wav2Vec2.0、HuBERT、XLS-R）微调，在EveryAyah子集上实现了0.08的词错误率（WER），并将训练时间从140小时减少到40小时，其中Wav2Vec2-XLSR-53提供了最佳表示。

arXiv:2606.19747v1 公告类型：新摘要：古兰经自动语音识别（ASR）旨在将古兰经诵读转换为文本，从而实现辅助记忆工具和古兰经搜索引擎等应用。然而，现有的ASR模型在用户诵读的经文上通常表现出较高的词错误率（WER），并且缺乏对古兰经语料库的完整覆盖。本文系统性地实证研究了基于领域特定微调的预训练Transformer模型用于古兰经ASR，采用了先进的语音特征提取方法：Wav2Vec2.0、HuBERT和XLS-R。这些模型通过遮蔽输入音频的部分内容并利用Transformer架构学习上下文感知的语音特征，应用自监督学习。预训练模型在一个经过筛选的古兰经数据集上进行微调，该数据集包含超过870小时的专业和用户诵读。通过对特征提取器、输出标签格式、训练策略和片段时长进行全面的消融研究，我们确定了影响该领域转录准确性的关键因素。我们表现最佳的配置在EveryAyah子集上实现了0.08的WER，在EveryAyah+Tarteel组合设置上实现了0.11的WER，比Citrinet基线（WER=0.163）大约提升了五个百分点，同时将组合模型的训练时间从140小时减少到40小时。不带变音符号的阿拉伯文本产生最佳的微调结果，而Wav2Vec2-XLSR-53提供了最强的整体表示。未来的工作包括改进数据集质量以及开发音素感知模型，以提取更深的语音特征表示，用于对Tajweed敏感的应用。

查看原文

查看缓存全文

缓存时间: 2026/06/20 14:32

# 预训练Transformer模型在《古兰经》语音识别中的比较研究：语音表征、标签格式与数据集构成  
**来源：** https://arxiv.org/html/2606.19747  
\[1\]\\orgname格林泰克应用基金会,\\country英国  
\[2\]\\orgname伦敦玛丽女王大学,\\country英国  
\[3\]\\orgname马来亚大学,\\country马来西亚  

###### 摘要  
《古兰经》自动语音识别（Quranic ASR）旨在将《古兰经》诵读转换为文本，从而支持记忆辅助工具和《古兰经》搜索引擎等应用。然而，现有的ASR模型在用户诵读的经文中词错误率（WER）较高，且未能覆盖完整的《古兰经》语料库。本文对基于预训练Transformer模型的领域特定微调进行了系统的实证研究，用于《古兰经》语音识别，采用了先进的语音特征提取方法：Wav2Vec2.0、HuBERT和XLS-R。这些模型通过遮蔽部分输入音频并利用Transformer架构学习上下文感知的语音特征，实现自监督学习。预训练模型在超过870小时的专业与用户诵读经文的筛选《古兰经》数据集上进行微调。通过对特征提取器、输出标签格式、训练策略和片段时长进行全面的消融研究，我们确定了影响该领域转录准确性的关键因素。我们的最佳配置在EveryAyah子集上实现了0.08的WER，在EveryAyah+Tarteel组合场景下实现了0.11的WER，相较于Citrinet基线（WER=0.163）提升了约五个百分点，同时将组合模型训练时间从140小时减少到40小时。无变音符的阿拉伯文本能获得最佳的微调结果，而Wav2Vec2-XLSR-53提供了最强的整体表征。未来工作包括提高数据集质量，以及开发音素感知模型，为需要泰吉威德（Tajweed）敏感的应用提取更深的语音特征表征。  

###### 关键词：  
《古兰经》自动语音识别（ASR）、端到端深度学习、Transformer模型、语音表征学习  

## 1 引言  

### 1.1 背景与上下文  
阿拉伯语是世界上最古老、最卓越的语言之一，以其原创性和适应性而闻名\[4](https://arxiv.org/html/2606.19747#bib.bib4)。拥有约2.9亿母语者和1.32亿非母语者，它是使用最广泛的闪米特语\[49](https://arxiv.org/html/2606.19747#bib.bib49)。它也是联合国（UN）六种官方语言之一\[33](https://arxiv.org/html/2606.19747#bib.bib33)。现代标准阿拉伯语（MSA）用于当代交流，而古典阿拉伯语（CA）因其在《古兰经》中的使用而保持核心地位\[46](https://arxiv.org/html/2606.19747#bib.bib46)。《古兰经》是伊斯兰教的基础文本，构成伊斯兰信仰的支柱之一，包含神圣的寓言、命令和教义\[22](https://arxiv.org/html/2606.19747#bib.bib22)。背诵和记忆《古兰经》在伊斯兰教育中占据核心地位\[51](https://arxiv.org/html/2606.19747#bib.bib51)。保留《古兰经》的音频形式至关重要，即逐词诵读，正如真主启示给先知穆罕默德（愿他平安）的那样——穆斯林认为它是神圣的。诵读规则被称为“泰吉威德”（Tajweed），对于确保准确发音和正确传达至关重要\[41](https://arxiv.org/html/2606.19747#bib.bib41)。术语“泰吉威德”源于阿拉伯语词根“Jawwada”，意为改进或增强语音准确性\[7](https://arxiv.org/html/2606.19747#bib.bib7)。然而，许多穆斯林并非以阿拉伯语为母语，由于缺乏定期练习和对语言细微差别的理解，他们往往难以正确诵读经文\[19](https://arxiv.org/html/2606.19747#bib.bib19)。传统上，《古兰经》诵读是在教师指导下学习的，教师倾听并提供反馈。但这种方法需要大量时间投入和面对面互动。环境干扰、教师可得性低以及师生比过高等挑战可能阻碍有效学习\[32](https://arxiv.org/html/2606.19747#bib.bib32)。因此，对无需持续监督就能辅助学习者诵读和记忆的自动化系统的需求日益增长\[13](https://arxiv.org/html/2606.19747#bib.bib13)。  

自动语音识别（ASR）通过将口语转换为文本，使机器能够理解人类语音，从而提供了一种解决方案。ASR已成功应用于教育、医疗、机器人、电信和客户服务等领域\[8](https://arxiv.org/html/2606.19747#bib.bib8)。在《古兰经》诵读的背景下，ASR可以通过检测发音错误和识别遗漏的词来支持自主学习，从而减少对人类教师的依赖\[30](https://arxiv.org/html/2606.19747#bib.bib30)。尽管取得了这些进展，阿拉伯语ASR系统仍面临标记数据有限、方言多样以及文本数据缺乏变音符等挑战\[11](https://arxiv.org/html/2606.19747#bib.bib11)。最近的阿拉伯语ASR基准测试，如MGB-2、MGB-3和MGB-5，在这一领域取得了一定进展\[9](https://arxiv.org/html/2606.19747#bib.bib9),\[10](https://arxiv.org/html/2606.19747#bib.bib10)。例如，MGB-2数据集包含1200小时的电视广播内容，而MGB-3和MGB-5提供了更大的语料库。这些基准测试分别实现了12.5%、27.5%和33.8%的词错误率（WER）\[28](https://arxiv.org/html/2606.19747#bib.bib28)。WER定义为转录错误的词占总词数的百分比，是评估ASR性能的标准指标\[30](https://arxiv.org/html/2606.19747#bib.bib30)。然而，对《古兰经》诵读的自动识别面临着独特的挑战，在现有文献中尚未得到充分解决\[11](https://arxiv.org/html/2606.19747#bib.bib11)。  

该领域在发展稳健解决方案方面存在若干关键研究空白。首先，现有方法对泰吉威德规则的覆盖有限，且训练仅限于《古兰经》经文的狭窄子集\[2](https://arxiv.org/html/2606.19747#bib.bib2),\[1](https://arxiv.org/html/2606.19747#bib.bib1)，未能捕捉古典阿拉伯语诵读模式中固有的全面语音变化。其次，尽管诸如Tarteel\[52](https://arxiv.org/html/2606.19747#bib.bib52)等基础数据集和包括Citrinet模型\[38](https://arxiv.org/html/2606.19747#bib.bib38)在内的微调架构已建立基线性能，但Conformer\[25](https://arxiv.org/html/2606.19747#bib.bib25),\[37](https://arxiv.org/html/2606.19747#bib.bib37)、无监督语音识别技术\[16](https://arxiv.org/html/2606.19747#bib.bib16)以及DeepSpeech架构\[5](https://arxiv.org/html/2606.19747#bib.bib5)等先进框架在此特定应用领域的潜力尚未得到充分挖掘。第三，当前评估方法未能充分考虑泰吉威德合规性的独特声学特征，也未能在诵读评估中区分语音准确性与宗教正确性。最后，现有研究缺乏实时处理系统来支持错误检测、记忆辅助和语音搜索等功能，而这些功能可满足全球穆斯林社区多样化的教育需求\[11](https://arxiv.org/html/2606.19747#bib.bib11)。  

### 1.2 拟议工作  
本研究通过系统创新来解决上述空白，研究对象为《古兰经》语音识别。研究围绕三个主要目标展开：  
1. 确定影响《古兰经》诵读转录准确性的关键声学和语言学参数。  
2. 开发一种先进的基于Transformer的模型，通过优化的深度学习方法显著降低WER。  
3. 评估并验证所提模型相对于现有基线方法的性能。  

本研究的主要贡献在于开发一种高性能语音识别模型，该模型在实现低WER和低字符错误率（CER）的同时提高转录准确性。本工作的关键创新点包括：  
1. 领域特定自适应：基于Transformer的模型用于《古兰经》语音识别。系统地对预训练端到端Transformer架构进行微调和优化，用于《古兰经》诵读领域——这是一项彻底的实证研究，而非全新的架构贡献。  
2. 特征提取比较：使用MFCC、Wav2Vec2、HuBERT和XLS-R语音表征对输入特征进行系统评估，以确定《古兰经》语音识别的最佳特征提取方法。  
3. 多格式输出标签分析：对四种不同的输出标签格式（阿拉伯文本、带变音符的阿拉伯文本、英文转写、Buckwalter转写）进行比较分析，以确定在《古兰经》转录任务中最小化WER的最有效表征方式。  
4. 训练策略评估：研究多种训练方法，包括从头训练与微调方法之间的比较、数据集组成（专业用户与普通用户）的影响以及片段时长对模型性能的影响，从而为最佳训练配置提供系统性见解。  

图1](https://arxiv.org/html/2606.19747#S1.F1)展示了所提出的端到端模型架构，该架构使用Wav2Vec2/HuBERT/XLS-R，并采用冻结的CNN编码器以及使用CTC损失进行转录的微调Transformer解码器。  

<figure>  
<img>  
</figure>  
图1：端到端模型架构：Wav2Vec2/HuBERT/XLS-R，采用冻结的CNN编码器以及使用CTC损失进行转录的微调Transformer解码器  

研究方法分为三个阶段，以解决上述研究空白：  
1. 数据收集与预处理：本阶段包括音频数据收集、音频特征提取以及基于Transformer架构的预训练。  
2. 模型训练与微调：本阶段使用各种超参数配置和预训练模型对模型进行训练和微调，以优化性能。  
3. 评估与验证：最后阶段包括对模型进行基准测试评估和验证。性能使用标准指标如词错误率（WER）和字符错误率（CER）进行评估。  

拟议研究具有显著潜力，既能惠及现有学生，又能将新读者和记忆者引入《古兰经》研究。开发的模型支持语音搜索功能，允许用户诵读经文并在《古兰经》中定位其位置。通过实现基于设备的诵读测试和错误识别，支持记忆增强。此外，系统可以为不同的苏拉（章节）生成字幕，提供逐词或逐节指导，以改善学习和理解。本研究有助于开发先进的用户评估技术和人类学习增强能力，包括为哈菲兹（hafiz）学生创建全面的错误汇编，并通过数据分析探索与年龄相关的诵读错误模式，最终变革《古兰经》的学习和理解方式。  

## 2 背景  
近年来，自动语音识别（ASR）取得了显著进展，特别是通过深度学习和端到端架构的应用\[43](https://arxiv.org/html/2606.19747#bib.bib43)。然而，由于语言复杂性、方言多样性以及泰吉威德规则，阿拉伯语和《古兰经》语音识别仍然具有独特的挑战性\[30](https://arxiv.org/html/2606.19747#bib.bib30)。本节根据本研究的三个主要研究目标回顾相关文献。  

### 2.1 阿拉伯语与《古兰经》语音识别中的声学和语言学参数  
阿拉伯语给ASR系统带来了几个独特的挑战：其辅音性、方言多样性、复杂的形态以及相似音素的发音。用于《古兰经》的古典阿拉伯语因必须遵循泰吉威德规则以确保准确发音，从而加剧了这些挑战\[41](https://arxiv.org/html/2606.19747#bib.bib41),\[7](https://arxiv.org/html/2606.19747#bib.bib7)。此外，专业和普通诵读者之间发音的可变性引入了噪声，影响模型准确性\[19](https://arxiv.org/html/2606.19747#bib.bib19)。  

多项研究提出了检测泰吉威德错误的系统\[31](https://arxiv.org/html/2606.19747#bib.bib31),\[50](https://arxiv.org/html/2606.19747#bib.bib50),\[39](https://arxiv.org/html/2606.19747#bib.bib39),\[42](https://arxiv.org/html/2606.19747#bib.bib42),\[6](https://arxiv.org/html/2606.19747#bib.bib6),\[55](https://arxiv.org/html/2606.19747#bib.bib55)。技术范围从MFCC-VQ到DCNN和BLSTM。然而，这些方法通常局限于特定规则或小规模数据集，凸显了对能够捕捉泰吉威德全部语音变化范围的综合声学特征识别的需求。  

### 2.2 先进的语音识别深度学习架构  
最初的自动语音识别（ASR）系统基于高斯混合模型-隐马尔可夫模型（GMM-HMM）架构。Dahl等人\[18](https://arxiv.org/html/2606.19747#bib.bib18)提出的混合隐马尔可夫模型-深度神经网络（HMM-DNN）模型用深度神经网络（DNN）替换了高斯混合模型（GMM），带来了显著的性能提升。随后的进展引入了时延神经网络（TDNN）、双向长短期记忆（BLSTM）网络以及无格最大互信息（LF-MMI）等优化技术\[45](https://arxiv.org/html/2606.19747#bib.bib45),\[34](https://arxiv.org/html/2606.19747#bib.bib34),\[48](https://arxiv.org/html/2606.19747#bib.bib48)。然而，这些模块化系统往往复杂、计算密集，并且不太适合部署在移动设备和资源受限的设备上。  

端到端（E2E）模型通过将原始音频输入直接映射到相应的文本输出，简化了整体架构，从而提高了识别性能和训练效率。端到端模型的主要类型包括：(1) 连接主义时间分类（CTC）\[24](https://arxiv.org/html/2606.19747#bib.bib24)，它无需预分割数据即可对齐输入和输出序列；(2) 基于注意力的序列到序列（Seq2Seq）模型\[54](https://arxiv.org/html/2606.19747#bib.bib54)，在解码过程中利用注意力机制动态关注输入序列的相关部分；(3) 循环神经网络转导器（RNN-T）模型\[23](https://arxiv.org/html/2606.19747#bib.bib23)，将声学建模和语言建模结合到统一的框架中。此外，融合CTC和注意力机制的多任务学习架构\[53](https://arxiv.org/html/2606.19747#bib.bib53)已被证明能通过利用两种方法的互补学习信号进一步增强模型准确性。  

自监督语音表征学习的最新创新包括Wav2Vec（波形到向量）\[47](https://arxiv.org/html/2606.19747#bib.bib47)、Wav2Vec 2.0\[15](https://arxiv.org/html/2606.19747#bib.bib15)、跨语言语音表征（XLS-R）\[14](https://arxiv.org/html/2606.19747#bib.bib14)以及Hi

针对《古兰经》语音识别的预训练Transformer模型比较研究：语音表示、标签格式与数据集构成

相似文章

转录儿童语音：ASR性能与获取可靠的正字法转写

商业ASR系统在代码切换语音上的基准测试：阿拉伯语、波斯语和德语

RightNow-Arabic-0.5B-Turbo：一款通过词汇注入和边缘优先部署的开源亚10亿参数阿拉伯语语言模型

使用 Sentence Transformers 训练和微调多模态 Embedding 与 Reranker 模型

Tadabur：大规模《古兰经》音频数据集

提交意见反馈