真没想到文本归一化在流式 TTS 里被忽视得这么彻底 [D]

Reddit r/MachineLearning 工具

摘要

作者指出流式语音合成中文本归一化被严重低估,并分享了一份厂商基准:用 1000+ 句子、31 个类别(日期、网址、缩写等)测评主流实时 TTS 服务。

挺震惊的,流式 TTS 模型在这种低级错误上居然没人聊。大家天天追求自然度、音质、情感,结果模型一到价格、日期、URL、优惠码、手机号就翻车。我搜资料时发现一个基准,把各家商用实时流式 TTS 拉出来,比它们怎么念日期、网址、缩写等,共 1000 多句、31 类,再用 Gemini 打分判断对错。[https://async-vocie-ai-text-to-speech-normalization-benchmark.static.hf.space/index.html](https://async-vocie-ai-text-to-speech-normalization-benchmark.static.hf.space/index.html) 看着挺靠谱。毕竟是厂商做的,我不会全信,但选题确实扎心——我们在生产环境里被这问题坑惨了。好奇各位实战里都怎么搞?
查看原文

相似文章

BlasBench:爱尔兰语语音识别开放基准

arXiv cs.CL

BlasBench 为爱尔兰语语音识别引入了一个开放的评估基准,采用爱尔兰语感知的文本规范化,保留了长音符、浊化和日蚀等语言特征。该论文在四个架构家族的 12 个 ASR 系统上进行基准测试,揭示了显著的泛化差距,并表明现有多语言系统由于规范化不足而在爱尔兰语上表现不佳。

当非正式文本导致自然语言推理失效:分词失败、分布偏移及针对性缓解策略

arXiv cs.CL

# 分词失败、分布偏移及针对性缓解策略 来源:[https://arxiv.org/html/2604.16787](https://arxiv.org/html/2604.16787) ## 当非正式文本导致自然语言推理失效:分词失败、分布偏移及针对性缓解策略 ###### 摘要 我们研究了在将四种转换操作应用于 SNLI 和 MultiNLI 时,非正式表层形式如何降低 ELECTRA-small(14M)和 RoBERTa-large(355M)的自然语言推理准确率:俚语替换、表情符号替换、Gen-Z 填充词,以及它们的