真没想到文本归一化在流式 TTS 里被忽视得这么彻底 [D]

Reddit r/MachineLearning 工具

摘要

作者指出流式语音合成中文本归一化被严重低估,并分享了一份厂商基准:用 1000+ 句子、31 个类别(日期、网址、缩写等)测评主流实时 TTS 服务。

挺震惊的,流式 TTS 模型在这种低级错误上居然没人聊。大家天天追求自然度、音质、情感,结果模型一到价格、日期、URL、优惠码、手机号就翻车。我搜资料时发现一个基准,把各家商用实时流式 TTS 拉出来,比它们怎么念日期、网址、缩写等,共 1000 多句、31 类,再用 Gemini 打分判断对错。[https://async-vocie-ai-text-to-speech-normalization-benchmark.static.hf.space/index.html](https://async-vocie-ai-text-to-speech-normalization-benchmark.static.hf.space/index.html) 看着挺靠谱。毕竟是厂商做的,我不会全信,但选题确实扎心——我们在生产环境里被这问题坑惨了。好奇各位实战里都怎么搞?
查看原文

相似文章

dots.tts 技术报告

Hugging Face Daily Papers

dots.tts 提出了一个拥有 2B 参数的连续自回归文本转语音 (TTS) 模型,基于多语言数据进行训练,在 Seed-TTS-Eval 等基准测试上取得了最先进的性能,并通过 CFG-aware MeanFlow 蒸馏实现了低延迟流式生成。该模型、代码和检查点均以 Apache 2.0 许可证发布。

BlasBench:爱尔兰语语音识别开放基准

arXiv cs.CL

BlasBench 为爱尔兰语语音识别引入了一个开放的评估基准,采用爱尔兰语感知的文本规范化,保留了长音符、浊化和日蚀等语言特征。该论文在四个架构家族的 12 个 ASR 系统上进行基准测试,揭示了显著的泛化差距,并表明现有多语言系统由于规范化不足而在爱尔兰语上表现不佳。