真没想到文本归一化在流式 TTS 里被忽视得这么彻底 [D]

Reddit r/MachineLearning 2026/04/22 12:35 工具

摘要

作者指出流式语音合成中文本归一化被严重低估，并分享了一份厂商基准：用 1000+ 句子、31 个类别（日期、网址、缩写等）测评主流实时 TTS 服务。

挺震惊的，流式 TTS 模型在这种低级错误上居然没人聊。大家天天追求自然度、音质、情感，结果模型一到价格、日期、URL、优惠码、手机号就翻车。我搜资料时发现一个基准，把各家商用实时流式 TTS 拉出来，比它们怎么念日期、网址、缩写等，共 1000 多句、31 类，再用 Gemini 打分判断对错。[https://async-vocie-ai-text-to-speech-normalization-benchmark.static.hf.space/index.html](https://async-vocie-ai-text-to-speech-normalization-benchmark.static.hf.space/index.html) 看着挺靠谱。毕竟是厂商做的，我不会全信，但选题确实扎心——我们在生产环境里被这问题坑惨了。好奇各位实战里都怎么搞？

查看原文

相似文章

BlasBench：爱尔兰语语音识别开放基准

arXiv cs.CL

BlasBench 为爱尔兰语语音识别引入了一个开放的评估基准，采用爱尔兰语感知的文本规范化，保留了长音符、浊化和日蚀等语言特征。该论文在四个架构家族的 12 个 ASR 系统上进行基准测试，揭示了显著的泛化差距，并表明现有多语言系统由于规范化不足而在爱尔兰语上表现不佳。

Qwen3 TTS 被严重低估了——我本地实时跑通后，发现它是目前最有表现力的开源 TTS 之一

Reddit r/LocalLLaMA

开发者演示如何本地实时运行 Qwen3 TTS，支持流式输出、量化、词级对齐与自定义音色微调，打造高表现力的开源 TTS 流水线。

当非正式文本导致自然语言推理失效：分词失败、分布偏移及针对性缓解策略

arXiv cs.CL

# 分词失败、分布偏移及针对性缓解策略来源：[https://arxiv.org/html/2604.16787](https://arxiv.org/html/2604.16787) ## 当非正式文本导致自然语言推理失效：分词失败、分布偏移及针对性缓解策略 ###### 摘要我们研究了在将四种转换操作应用于 SNLI 和 MultiNLI 时，非正式表层形式如何降低 ELECTRA-small（14M）和 RoBERTa-large（355M）的自然语言推理准确率：俚语替换、表情符号替换、Gen-Z 填充词，以及它们的

前沿大模型“口头禅”激增：跨模型系统性分析

arXiv cs.CL

首次系统性量化八款顶尖大模型的重复口头禅现象，提出“口头禅指数（VTI）”，发现模型间差异显著且严重损害自然度。

@bclavie: 这可能是今年最好的IR发布。文本基准测试（过去）已失效，DL19/DL20/BEIR不再提供有价值…

X AI KOLs Following

一个新的IR基准发布解决了DL19/DL20/BEIR中文本基准测试失效的问题，使得在当前时代的训练方法中能够有意义地衡量改进。

相似文章

BlasBench：爱尔兰语语音识别开放基准

Qwen3 TTS 被严重低估了——我本地实时跑通后，发现它是目前最有表现力的开源 TTS 之一

当非正式文本导致自然语言推理失效：分词失败、分布偏移及针对性缓解策略

前沿大模型“口头禅”激增：跨模型系统性分析

@bclavie: 这可能是今年最好的IR发布。文本基准测试（过去）已失效，DL19/DL20/BEIR不再提供有价值…

提交意见反馈