标签
作者指出流式语音合成中文本归一化被严重低估,并分享了一份厂商基准:用 1000+ 句子、31 个类别(日期、网址、缩写等)测评主流实时 TTS 服务。
easyaligner是一个开源强制对齐库,具有GPU加速和灵活的文本归一化功能,适配Hugging Face Hub上的所有wav2vec2模型。它针对实际工作流进行了优化,可以处理部分转录、无关语音段落和长音频(无需分块),同时保留原始文本格式。