Voice of India：面向印度真实场景的大规模语音识别基准

arXiv cs.CL 2026/04/22 04:00 论文

摘要

研究者发布 Voice of India，一个包含 536 小时、覆盖 15 种印度语言和 139 个区域集群的即兴电话对话闭源基准，揭示地理与人口统计学层面的 ASR 性能差异。

arXiv:2604.19151v1 公告类型：新增摘要：现有印度语 ASR 基准多采用照稿朗读的干净语音，并以排行榜驱动的评估方式鼓励对特定数据集过拟合。此外，严格的单参考 WER 对印度语言中自然拼写变体（包括源自英语的音译混写）惩罚过重。为克服这些局限，我们推出 Voice of India，一个基于即兴电话对话的闭源基准，涵盖 139 个区域集群的 15 种主要印度语言。数据集共 306 230 条语句，536 小时语音，来自 36 691 位说话人，转录文本已考虑拼写变体。我们还在县级地理粒度分析性能差异，并针对音频质量、语速、性别、设备类型等因素提供详尽分析，指出当前 ASR 系统的短板，为提升真实场景下的印度语 ASR 提供洞察。

查看原文

查看缓存全文

缓存时间: 2026/04/22 08:30

# 印度之声：面向真实场景印度语音识别的大规模基准
来源：https://arxiv.org/html/2604.19151  
Bhogale Dhir Walecha Kaur Chhabra Pareek Sidh Jain Singh Singh Javed Banga Khapra

印度理工学院马德拉斯分校¹ · Josh Talks²  
[email protected]（https://arxiv.org/html/2604.19151v1/mailto:[email protected]）

###### 摘要

现有印度语 ASR 基准多用朗读、干净语音，且以排行榜驱动评估，易诱发数据集特化过拟合；同时，单一参考 WER 严格惩罚印度语言的自然拼写差异，包括代码混用中英源词的非标准化拼写。为此，我们推出闭源基准“印度之声”，素材取自无剧本电话交谈，覆盖 15 种主要印度语言、139 个区域集群，共 306 230 条语句、536 小时语音，来自 36 691 名说话人，转录已考虑拼写变体。我们首次在县级粒度分析性能差异，并围绕音质、语速、性别、设备类型等维度展开细粒度分析，揭示当前 ASR 系统的短板，为改进真实场景印度语 ASR 提供指引。

###### 关键词

语音识别、大规模评测、低资源

## 1 引言

近期印度语 ASR 进展得益于 MUCS\[diwan2021\]、IndicSUPERB\[javed2023indicsuperb\]、Vistaar\[bhogale2023\] 等共享任务及 IndicVoices\[javed2024indicvoices\] 等数据集，覆盖更多语言、口音、正字法与代码切换。然而，排行榜上的提升往往难以迁移到真实场景：现有基准比生产音频更干净、更朗读化\[likhomanenko2020rethinking\]，且仅报告每语言单一 WER，掩盖地域、方言差异；公开排行榜进一步诱使模型特化，靠“刷榜”而非泛化；单一参考转录与严格 WER 亦惩罚合法拼写变体，包括代码混用中英词在本土文字中的非标准化写法。

见图 1：印度 WER 地图——各县级平均词错误率（跨语言、跨四款全语种模型平均）  
为此，我们发布闭源评估基准“印度之声”，素材为无剧本、长时电话交谈，贴近日常真实互动；强调语义忠实而非字符串严匹配；提供多份有效转录，容纳自然拼写差异与代码混用写法；核心目标之一是暴露地域差异。图 1 按县级可视化 WER，呈现全国用户实际遭遇的错误率。

数据集采用“人口比例聚类采样”：全国 139 个地理-方言聚类，按人口比例采样，最终覆盖 15 种主要印度语，306 230 句、536 小时、36 691 名说话人。除总指标外，我们还按音质、语速、句长、地域、性别、设备、年龄等维度细拆，既给系统排名，也指明当前模型在哪些具体场景与地区鲁棒性不足，为后续研发指路。

## 2 相关研究

印度语 ASR 基准  
早期有 Interspeech 2018 低资源 ASR 挑战\[srivastava2018\]、OpenSLR 多语语料\[he2020,butryna2020\]、MUCS 2021\[diwan2021\]；近期则有 IndicSUPERB、Vistaar、口音数据集 Svarah/Lahaja，以及覆盖 22 种法定印度语的 IndicVoices。

大规模语音采集  
Mozilla Common Voice\[ardila2020\] 开创众包多语采集；Google 通过 OpenSLR 发布多个低资源语言数据集；FLEURS\[conneau2022\] 提供标准化评测集；WAXAL\[waxal2025\] 采集撒哈拉以南非洲语言。共同难点：社区动员、可扩展质控、统一协议。

超越 WER 的评测  
多参考对齐\[arabic2015,arabic2019,japanese,style_agnostic\] 减少拼写惩罚，但成本高；SCLITE\[sclite\] 规则映射需穷举，难应对大规模拼写变体与代码混用；WERd、归一化评测、音素指标等依赖外部资源，常不完整。

表 1：印度之声基准整体统计  
（a）开源模型与公开 API 在“印度之声”上的 WER（%）  
（b）按年龄、性别、收入平均的各语言 WER

## 3 印度之声基准

### 3.1 语音采集

平台与贡献者招募  
通过可远程接入的在线平台，印度各地用户以 P2P 方式录音。招募依托全国数字社区平台（用户数百万，覆盖城乡），最终 36 000+ 说话人参与 15 种语言录制。

地理分散带来技术与物流挑战：低端手机、不稳定网络，要求录制端在低带宽下可靠运行。贡献者需先通过语言熟悉度筛选，再进入正式任务；合格者可获酬劳。所有参与者签署知情同意，方案经校内伦理委员会审批。

话题设计与提示生成  
为激发自然长时语音，我们构建开放叙事提示库，覆盖日常生活、个人经历、旅行、教育、社交等。每话题先给开放式线索，再逐步弹出追问，引导说话人展开描述。

15 种语言的提示由 GPT-4.5 生成候选，再经语言专家审核、本地化，确保语言自然与文化贴合，每语言 1 000+ 话题。

音频分割与质控  
原始录音用 WebRTC VAD 切分，合并相邻语音段，剔除过短/过长段；用 Meta MMS 与 SpeechBrain VoxLingua107 自动识别语言，剔除错标音频，每语言约留 1 000 小时；最后用 DNSMOS 过滤低感知质量段。

人口分层采样  
以县级为单位聚成 139 个地理-方言集群，按人口比例确定采样量，确保全国均衡代表。

Voice of India：面向印度真实场景的大规模语音识别基准

相似文章

Vividh-ASR：面向稳健印度语音识别的复杂度分层基准与优化动态

SamaVaani：印度语言多语言临床ASR的审计与去偏

@SarvamAI：我们开源两套评估印度语 ASR 的框架，并发布覆盖 22 种语言的完整评测指南。WER（…

SCRIBE：面向Indic ASR的诊断评估与富转录模型

ChildVox：理解与表征儿童声音的语音、音频及大型音频语言模型基准

提交意见反馈