真没想到文本归一化在流式 TTS 里被忽视得这么彻底 [D]
摘要
作者指出流式语音合成中文本归一化被严重低估,并分享了一份厂商基准:用 1000+ 句子、31 个类别(日期、网址、缩写等)测评主流实时 TTS 服务。
挺震惊的,流式 TTS 模型在这种低级错误上居然没人聊。大家天天追求自然度、音质、情感,结果模型一到价格、日期、URL、优惠码、手机号就翻车。我搜资料时发现一个基准,把各家商用实时流式 TTS 拉出来,比它们怎么念日期、网址、缩写等,共 1000 多句、31 类,再用 Gemini 打分判断对错。[https://async-vocie-ai-text-to-speech-normalization-benchmark.static.hf.space/index.html](https://async-vocie-ai-text-to-speech-normalization-benchmark.static.hf.space/index.html) 看着挺靠谱。毕竟是厂商做的,我不会全信,但选题确实扎心——我们在生产环境里被这问题坑惨了。好奇各位实战里都怎么搞?
相似文章
文本转语音(TTS)基准测试更新:引入客观标准和盲投票(已涵盖46个模型,持续增加中)
更新后的TTS基准测试引入了客观标准和实时盲投票机制,为46+模型创建ELO排名,并向社区开放参与。
TTS基准对比(截至2026年5月的所有已知TTS)
一个用户创建的用于比较本地TTS工具的基准测试,包含Windows和Mac的结果,Linux测试待完成。包含HTML结果页面和GitHub仓库。
dots.tts 技术报告
dots.tts 提出了一个拥有 2B 参数的连续自回归文本转语音 (TTS) 模型,基于多语言数据进行训练,在 Seed-TTS-Eval 等基准测试上取得了最先进的性能,并通过 CFG-aware MeanFlow 蒸馏实现了低延迟流式生成。该模型、代码和检查点均以 Apache 2.0 许可证发布。
BlasBench:爱尔兰语语音识别开放基准
BlasBench 为爱尔兰语语音识别引入了一个开放的评估基准,采用爱尔兰语感知的文本规范化,保留了长音符、浊化和日蚀等语言特征。该论文在四个架构家族的 12 个 ASR 系统上进行基准测试,揭示了显著的泛化差距,并表明现有多语言系统由于规范化不足而在爱尔兰语上表现不佳。
@HarshalsinghCN: 我打造了一个开源的 Hinglish TTS,性能碾压市面所有模型。我没有任何研究背景。上周我 w…
一位开发者记录了构建开源 Hinglish 文本转语音系统的过程,该系统通过修复上游推理 bug 并增加轻量级预处理封装,实现了超越现有模型的效果,且在无需训练或 GPU 资源的情况下达到了高质量。