真没想到文本归一化在流式 TTS 里被忽视得这么彻底 [D]
摘要
作者指出流式语音合成中文本归一化被严重低估,并分享了一份厂商基准:用 1000+ 句子、31 个类别(日期、网址、缩写等)测评主流实时 TTS 服务。
挺震惊的,流式 TTS 模型在这种低级错误上居然没人聊。大家天天追求自然度、音质、情感,结果模型一到价格、日期、URL、优惠码、手机号就翻车。我搜资料时发现一个基准,把各家商用实时流式 TTS 拉出来,比它们怎么念日期、网址、缩写等,共 1000 多句、31 类,再用 Gemini 打分判断对错。[https://async-vocie-ai-text-to-speech-normalization-benchmark.static.hf.space/index.html](https://async-vocie-ai-text-to-speech-normalization-benchmark.static.hf.space/index.html) 看着挺靠谱。毕竟是厂商做的,我不会全信,但选题确实扎心——我们在生产环境里被这问题坑惨了。好奇各位实战里都怎么搞?
相似文章
BlasBench:爱尔兰语语音识别开放基准
BlasBench 为爱尔兰语语音识别引入了一个开放的评估基准,采用爱尔兰语感知的文本规范化,保留了长音符、浊化和日蚀等语言特征。该论文在四个架构家族的 12 个 ASR 系统上进行基准测试,揭示了显著的泛化差距,并表明现有多语言系统由于规范化不足而在爱尔兰语上表现不佳。
Qwen3 TTS 被严重低估了——我本地实时跑通后,发现它是目前最有表现力的开源 TTS 之一
开发者演示如何本地实时运行 Qwen3 TTS,支持流式输出、量化、词级对齐与自定义音色微调,打造高表现力的开源 TTS 流水线。
当非正式文本导致自然语言推理失效:分词失败、分布偏移及针对性缓解策略
# 分词失败、分布偏移及针对性缓解策略 来源:[https://arxiv.org/html/2604.16787](https://arxiv.org/html/2604.16787) ## 当非正式文本导致自然语言推理失效:分词失败、分布偏移及针对性缓解策略 ###### 摘要 我们研究了在将四种转换操作应用于 SNLI 和 MultiNLI 时,非正式表层形式如何降低 ELECTRA-small(14M)和 RoBERTa-large(355M)的自然语言推理准确率:俚语替换、表情符号替换、Gen-Z 填充词,以及它们的
前沿大模型“口头禅”激增:跨模型系统性分析
首次系统性量化八款顶尖大模型的重复口头禅现象,提出“口头禅指数(VTI)”,发现模型间差异显著且严重损害自然度。
@bclavie: 这可能是今年最好的IR发布。文本基准测试(过去)已失效,DL19/DL20/BEIR不再提供有价值…
一个新的IR基准发布解决了DL19/DL20/BEIR中文本基准测试失效的问题,使得在当前时代的训练方法中能够有意义地衡量改进。