标签
本文提出了一种基于认证的自动语音识别机制,采用双门诊断流水线(Two-Sided Atomic Audit 和 Rank-Based Tournament)来提供认证鲁棒性,并在多种架构上实现了词错误率高达55%的相对降低。
一家语音公司训练了一个模型,该模型能消除噪声并识别主要说话者,在嘈杂环境中,领先的ASR模型的词错误率降低了50%。
本文批判了自动语音识别(ASR)评估中使用单一参考真实标准的做法,指出这会导致对失语症患者说话人的认识论不公。文章提出了一种新指标——认识论不公距离(EID),并提倡使用WER-Range(词错率范围)来考虑多样化的转录惯例。