标签
本文系统性地实证研究了针对《古兰经》自动语音识别(ASR)的预训练Transformer模型(Wav2Vec2.0、HuBERT、XLS-R)微调,在EveryAyah子集上实现了0.08的词错误率(WER),并将训练时间从140小时减少到40小时,其中Wav2Vec2-XLSR-53提供了最佳表示。