Voice of India:面向印度真实场景的大规模语音识别基准
摘要
研究者发布 Voice of India,一个包含 536 小时、覆盖 15 种印度语言和 139 个区域集群的即兴电话对话闭源基准,揭示地理与人口统计学层面的 ASR 性能差异。
arXiv:2604.19151v1 公告类型:新增
摘要:现有印度语 ASR 基准多采用照稿朗读的干净语音,并以排行榜驱动的评估方式鼓励对特定数据集过拟合。此外,严格的单参考 WER 对印度语言中自然拼写变体(包括源自英语的音译混写)惩罚过重。为克服这些局限,我们推出 Voice of India,一个基于即兴电话对话的闭源基准,涵盖 139 个区域集群的 15 种主要印度语言。数据集共 306 230 条语句,536 小时语音,来自 36 691 位说话人,转录文本已考虑拼写变体。我们还在县级地理粒度分析性能差异,并针对音频质量、语速、性别、设备类型等因素提供详尽分析,指出当前 ASR 系统的短板,为提升真实场景下的印度语 ASR 提供洞察。
查看缓存全文
缓存时间: 2026/04/22 08:30
# 印度之声:面向真实场景印度语音识别的大规模基准 来源:https://arxiv.org/html/2604.19151 Bhogale Dhir Walecha Kaur Chhabra Pareek Sidh Jain Singh Singh Javed Banga Khapra 印度理工学院马德拉斯分校¹ · Josh Talks² [email protected](https://arxiv.org/html/2604.19151v1/mailto:[email protected]) ###### 摘要 现有印度语 ASR 基准多用朗读、干净语音,且以排行榜驱动评估,易诱发数据集特化过拟合;同时,单一参考 WER 严格惩罚印度语言的自然拼写差异,包括代码混用中英源词的非标准化拼写。为此,我们推出闭源基准“印度之声”,素材取自无剧本电话交谈,覆盖 15 种主要印度语言、139 个区域集群,共 306 230 条语句、536 小时语音,来自 36 691 名说话人,转录已考虑拼写变体。我们首次在县级粒度分析性能差异,并围绕音质、语速、性别、设备类型等维度展开细粒度分析,揭示当前 ASR 系统的短板,为改进真实场景印度语 ASR 提供指引。 ###### 关键词 语音识别、大规模评测、低资源 ## 1 引言 近期印度语 ASR 进展得益于 MUCS\[diwan2021\]、IndicSUPERB\[javed2023indicsuperb\]、Vistaar\[bhogale2023\] 等共享任务及 IndicVoices\[javed2024indicvoices\] 等数据集,覆盖更多语言、口音、正字法与代码切换。然而,排行榜上的提升往往难以迁移到真实场景:现有基准比生产音频更干净、更朗读化\[likhomanenko2020rethinking\],且仅报告每语言单一 WER,掩盖地域、方言差异;公开排行榜进一步诱使模型特化,靠“刷榜”而非泛化;单一参考转录与严格 WER 亦惩罚合法拼写变体,包括代码混用中英词在本土文字中的非标准化写法。 见图 1:印度 WER 地图——各县级平均词错误率(跨语言、跨四款全语种模型平均) 为此,我们发布闭源评估基准“印度之声”,素材为无剧本、长时电话交谈,贴近日常真实互动;强调语义忠实而非字符串严匹配;提供多份有效转录,容纳自然拼写差异与代码混用写法;核心目标之一是暴露地域差异。图 1 按县级可视化 WER,呈现全国用户实际遭遇的错误率。 数据集采用“人口比例聚类采样”:全国 139 个地理-方言聚类,按人口比例采样,最终覆盖 15 种主要印度语,306 230 句、536 小时、36 691 名说话人。除总指标外,我们还按音质、语速、句长、地域、性别、设备、年龄等维度细拆,既给系统排名,也指明当前模型在哪些具体场景与地区鲁棒性不足,为后续研发指路。 ## 2 相关研究 印度语 ASR 基准 早期有 Interspeech 2018 低资源 ASR 挑战\[srivastava2018\]、OpenSLR 多语语料\[he2020,butryna2020\]、MUCS 2021\[diwan2021\];近期则有 IndicSUPERB、Vistaar、口音数据集 Svarah/Lahaja,以及覆盖 22 种法定印度语的 IndicVoices。 大规模语音采集 Mozilla Common Voice\[ardila2020\] 开创众包多语采集;Google 通过 OpenSLR 发布多个低资源语言数据集;FLEURS\[conneau2022\] 提供标准化评测集;WAXAL\[waxal2025\] 采集撒哈拉以南非洲语言。共同难点:社区动员、可扩展质控、统一协议。 超越 WER 的评测 多参考对齐\[arabic2015,arabic2019,japanese,style_agnostic\] 减少拼写惩罚,但成本高;SCLITE\[sclite\] 规则映射需穷举,难应对大规模拼写变体与代码混用;WERd、归一化评测、音素指标等依赖外部资源,常不完整。 表 1:印度之声基准整体统计 (a)开源模型与公开 API 在“印度之声”上的 WER(%) (b)按年龄、性别、收入平均的各语言 WER ## 3 印度之声基准 ### 3.1 语音采集 平台与贡献者招募 通过可远程接入的在线平台,印度各地用户以 P2P 方式录音。招募依托全国数字社区平台(用户数百万,覆盖城乡),最终 36 000+ 说话人参与 15 种语言录制。 地理分散带来技术与物流挑战:低端手机、不稳定网络,要求录制端在低带宽下可靠运行。贡献者需先通过语言熟悉度筛选,再进入正式任务;合格者可获酬劳。所有参与者签署知情同意,方案经校内伦理委员会审批。 话题设计与提示生成 为激发自然长时语音,我们构建开放叙事提示库,覆盖日常生活、个人经历、旅行、教育、社交等。每话题先给开放式线索,再逐步弹出追问,引导说话人展开描述。 15 种语言的提示由 GPT-4.5 生成候选,再经语言专家审核、本地化,确保语言自然与文化贴合,每语言 1 000+ 话题。 音频分割与质控 原始录音用 WebRTC VAD 切分,合并相邻语音段,剔除过短/过长段;用 Meta MMS 与 SpeechBrain VoxLingua107 自动识别语言,剔除错标音频,每语言约留 1 000 小时;最后用 DNSMOS 过滤低感知质量段。 人口分层采样 以县级为单位聚成 139 个地理-方言集群,按人口比例确定采样量,确保全国均衡代表。
相似文章
Vividh-ASR:面向稳健印度语音识别的复杂度分层基准与优化动态
介绍了用于印地语和马拉雅拉姆语ASR的复杂度分层基准Vividh-ASR,指出了微调中的录音室偏差,并提出了R-MFT以高效提升自发言语性能。
SamaVaani:印度语言多语言临床ASR的审计与去偏
本文对印度语言的精神病学访谈中的多语言临床ASR系统进行了系统性审计,并提出了SamaVaani,一种统一的去偏技术,旨在提升跨人口群体的性能与公平性。
@SarvamAI:我们开源两套评估印度语 ASR 的框架,并发布覆盖 22 种语言的完整评测指南。WER(…
SarvamAI 发布开源评估框架与指南,专为 22 种印度语言设计,解决传统 WER/CER 指标在该场景下的局限。
SCRIBE:面向Indic ASR的诊断评估与富转录模型
SCRIBE 是一个用于自动语音识别的诊断评估框架,为印度语言提供分类错误分解,并发布了 Hindi、Malayalam 和 Kannada 的基准和开源权重富转录模型。
ChildVox:理解与表征儿童声音的语音、音频及大型音频语言模型基准
ChildVox 提出了一个全面的基准,用于分析儿童在不同发育阶段的声学交流,整合了来自17个以儿童为中心的音频和语音数据集的20多个子任务。