Tadabur:大规模《古兰经》音频数据集

Hugging Face Daily Papers 论文

摘要

Tadabur 是一个包含 1,400 多小时《古兰经》朗诵音频的数据集,汇集 600 多位诵读者,旨在推动《古兰经》语音研究与基准测试。

尽管《古兰经》数据研究兴趣日增,现有数据集在规模与多样性上仍显不足。为此,我们推出大规模《古兰经》音频数据集 Tadabur。该数据集收录 1,400 余小时朗诵音频,来自 600 多位不同诵读者,涵盖朗诵风格、嗓音特征及录音环境的丰富差异。这种多样性使 Tadabur 成为《古兰经》语音研究与分析的综合且具代表性的资源。通过大幅扩展可用数据的总时长与多样性,Tadabur 旨在支持未来研究,并促进标准化《古兰经》语音基准的建立。
查看原文
查看缓存全文

缓存时间: 2026/04/23 11:54

论文页面 - Tadabur:大规模《古兰经》音频数据集

来源:https://huggingface.co/papers/2604.18932

摘要

尽管《古兰经》数据研究日益受到关注,但现有数据集在规模和多样性方面仍显不足。为此,我们推出 Tadabur——一个大规模《古兰经》朗读音频数据集。Tadabur 收录 1400+ 小时诵读音频,涵盖 600+ 位不同诵读者,在朗读风格、嗓音特征与录音环境上提供丰富变化。这种多样性使其成为《古兰经》语音研究与分析的全面且具代表性的资源。通过大幅扩展可用《古兰经》数据的总量与多样性,Tadabur 旨在支持未来研究,并推动标准化《古兰经》语音基准的建立。

查看 arXiv 页面(https://arxiv.org/abs/2604.18932)
查看 PDF(https://arxiv.org/pdf/2604.18932)
项目主页(https://fherran.github.io/tadabur/)
GitHub112(https://github.com/fherran/tadabur)
添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2604.18932)

在智能体中获取该论文:

hf papers read 2604.18932

尚未安装最新 CLI?
curl -LsSf https://hf.co/cli/install.sh | bash

引用该论文的模型 0

暂无模型关联该论文

在模型 README.md 中引用 arxiv.org/abs/2604.18932 即可在此页面显示链接。

引用该论文的数据集 1

FaisaI/tadabur Viewer • 约 22 小时前更新 • 409k • 3.84k • 13(https://huggingface.co/datasets/FaisaI/tadabur)

引用该论文的 Spaces 0

暂无 Space 关联该论文

在 Space README.md 中引用 arxiv.org/abs/2604.18932 即可在此页面显示链接。

收录该论文的 Collections 0

暂无 Collection 收录该论文

将该论文添加到收藏(https://huggingface.co/new-collection)即可在此页面显示链接。

相似文章

MUSCAT:多语言科学对话基准

arXiv cs.CL

MUSCAT是一个新的多语言科学对话基准数据集,用于评估ASR系统在具有挑战性的多语言场景中的表现,包括代码混合、特定领域词汇和混合语言输入。该数据集包含使用不同语言的说话者之间关于科学论文的双语讨论,结果表明当前的最先进系统在应对这些多语言挑战时存在困难。