Voice of India:面向印度真实场景的大规模语音识别基准

arXiv cs.CL 论文

摘要

研究者发布 Voice of India,一个包含 536 小时、覆盖 15 种印度语言和 139 个区域集群的即兴电话对话闭源基准,揭示地理与人口统计学层面的 ASR 性能差异。

arXiv:2604.19151v1 公告类型:新增 摘要:现有印度语 ASR 基准多采用照稿朗读的干净语音,并以排行榜驱动的评估方式鼓励对特定数据集过拟合。此外,严格的单参考 WER 对印度语言中自然拼写变体(包括源自英语的音译混写)惩罚过重。为克服这些局限,我们推出 Voice of India,一个基于即兴电话对话的闭源基准,涵盖 139 个区域集群的 15 种主要印度语言。数据集共 306 230 条语句,536 小时语音,来自 36 691 位说话人,转录文本已考虑拼写变体。我们还在县级地理粒度分析性能差异,并针对音频质量、语速、性别、设备类型等因素提供详尽分析,指出当前 ASR 系统的短板,为提升真实场景下的印度语 ASR 提供洞察。
查看原文
查看缓存全文

缓存时间: 2026/04/22 08:30

# 印度之声:面向真实场景印度语音识别的大规模基准
来源:https://arxiv.org/html/2604.19151  
Bhogale Dhir Walecha Kaur Chhabra Pareek Sidh Jain Singh Singh Javed Banga Khapra

印度理工学院马德拉斯分校¹ · Josh Talks²  
[email protected](https://arxiv.org/html/2604.19151v1/mailto:[email protected])

###### 摘要

现有印度语 ASR 基准多用朗读、干净语音,且以排行榜驱动评估,易诱发数据集特化过拟合;同时,单一参考 WER 严格惩罚印度语言的自然拼写差异,包括代码混用中英源词的非标准化拼写。为此,我们推出闭源基准“印度之声”,素材取自无剧本电话交谈,覆盖 15 种主要印度语言、139 个区域集群,共 306 230 条语句、536 小时语音,来自 36 691 名说话人,转录已考虑拼写变体。我们首次在县级粒度分析性能差异,并围绕音质、语速、性别、设备类型等维度展开细粒度分析,揭示当前 ASR 系统的短板,为改进真实场景印度语 ASR 提供指引。

###### 关键词

语音识别、大规模评测、低资源

## 1 引言

近期印度语 ASR 进展得益于 MUCS\[diwan2021\]、IndicSUPERB\[javed2023indicsuperb\]、Vistaar\[bhogale2023\] 等共享任务及 IndicVoices\[javed2024indicvoices\] 等数据集,覆盖更多语言、口音、正字法与代码切换。然而,排行榜上的提升往往难以迁移到真实场景:现有基准比生产音频更干净、更朗读化\[likhomanenko2020rethinking\],且仅报告每语言单一 WER,掩盖地域、方言差异;公开排行榜进一步诱使模型特化,靠“刷榜”而非泛化;单一参考转录与严格 WER 亦惩罚合法拼写变体,包括代码混用中英词在本土文字中的非标准化写法。

见图 1:印度 WER 地图——各县级平均词错误率(跨语言、跨四款全语种模型平均)  
为此,我们发布闭源评估基准“印度之声”,素材为无剧本、长时电话交谈,贴近日常真实互动;强调语义忠实而非字符串严匹配;提供多份有效转录,容纳自然拼写差异与代码混用写法;核心目标之一是暴露地域差异。图 1 按县级可视化 WER,呈现全国用户实际遭遇的错误率。

数据集采用“人口比例聚类采样”:全国 139 个地理-方言聚类,按人口比例采样,最终覆盖 15 种主要印度语,306 230 句、536 小时、36 691 名说话人。除总指标外,我们还按音质、语速、句长、地域、性别、设备、年龄等维度细拆,既给系统排名,也指明当前模型在哪些具体场景与地区鲁棒性不足,为后续研发指路。

## 2 相关研究

印度语 ASR 基准  
早期有 Interspeech 2018 低资源 ASR 挑战\[srivastava2018\]、OpenSLR 多语语料\[he2020,butryna2020\]、MUCS 2021\[diwan2021\];近期则有 IndicSUPERB、Vistaar、口音数据集 Svarah/Lahaja,以及覆盖 22 种法定印度语的 IndicVoices。

大规模语音采集  
Mozilla Common Voice\[ardila2020\] 开创众包多语采集;Google 通过 OpenSLR 发布多个低资源语言数据集;FLEURS\[conneau2022\] 提供标准化评测集;WAXAL\[waxal2025\] 采集撒哈拉以南非洲语言。共同难点:社区动员、可扩展质控、统一协议。

超越 WER 的评测  
多参考对齐\[arabic2015,arabic2019,japanese,style_agnostic\] 减少拼写惩罚,但成本高;SCLITE\[sclite\] 规则映射需穷举,难应对大规模拼写变体与代码混用;WERd、归一化评测、音素指标等依赖外部资源,常不完整。

表 1:印度之声基准整体统计  
(a)开源模型与公开 API 在“印度之声”上的 WER(%)  
(b)按年龄、性别、收入平均的各语言 WER

## 3 印度之声基准

### 3.1 语音采集

平台与贡献者招募  
通过可远程接入的在线平台,印度各地用户以 P2P 方式录音。招募依托全国数字社区平台(用户数百万,覆盖城乡),最终 36 000+ 说话人参与 15 种语言录制。

地理分散带来技术与物流挑战:低端手机、不稳定网络,要求录制端在低带宽下可靠运行。贡献者需先通过语言熟悉度筛选,再进入正式任务;合格者可获酬劳。所有参与者签署知情同意,方案经校内伦理委员会审批。

话题设计与提示生成  
为激发自然长时语音,我们构建开放叙事提示库,覆盖日常生活、个人经历、旅行、教育、社交等。每话题先给开放式线索,再逐步弹出追问,引导说话人展开描述。

15 种语言的提示由 GPT-4.5 生成候选,再经语言专家审核、本地化,确保语言自然与文化贴合,每语言 1 000+ 话题。

音频分割与质控  
原始录音用 WebRTC VAD 切分,合并相邻语音段,剔除过短/过长段;用 Meta MMS 与 SpeechBrain VoxLingua107 自动识别语言,剔除错标音频,每语言约留 1 000 小时;最后用 DNSMOS 过滤低感知质量段。

人口分层采样  
以县级为单位聚成 139 个地理-方言集群,按人口比例确定采样量,确保全国均衡代表。

相似文章