真没想到文本归一化在流式 TTS 里被忽视得这么彻底 [D]

Reddit r/MachineLearning 2026/04/22 12:35 工具

摘要

作者指出流式语音合成中文本归一化被严重低估，并分享了一份厂商基准：用 1000+ 句子、31 个类别（日期、网址、缩写等）测评主流实时 TTS 服务。

挺震惊的，流式 TTS 模型在这种低级错误上居然没人聊。大家天天追求自然度、音质、情感，结果模型一到价格、日期、URL、优惠码、手机号就翻车。我搜资料时发现一个基准，把各家商用实时流式 TTS 拉出来，比它们怎么念日期、网址、缩写等，共 1000 多句、31 类，再用 Gemini 打分判断对错。[https://async-vocie-ai-text-to-speech-normalization-benchmark.static.hf.space/index.html](https://async-vocie-ai-text-to-speech-normalization-benchmark.static.hf.space/index.html) 看着挺靠谱。毕竟是厂商做的，我不会全信，但选题确实扎心——我们在生产环境里被这问题坑惨了。好奇各位实战里都怎么搞？

查看原文

真没想到文本归一化在流式 TTS 里被忽视得这么彻底 [D]

相似文章

文本转语音（TTS）基准测试更新：引入客观标准和盲投票（已涵盖46个模型，持续增加中）

TTS基准对比（截至2026年5月的所有已知TTS）

dots.tts 技术报告

BlasBench：爱尔兰语语音识别开放基准

@HarshalsinghCN: 我打造了一个开源的 Hinglish TTS，性能碾压市面所有模型。我没有任何研究背景。上周我 w…

提交意见反馈