文本转语音(TTS)基准测试更新:引入客观标准和盲投票(已涵盖46个模型,持续增加中)
摘要
更新后的TTS基准测试引入了客观标准和实时盲投票机制,为46+模型创建ELO排名,并向社区开放参与。
感谢大家对我上一篇文章的贡献,提供了反馈和多种模型,并对评分系统提出了质疑。现在您可以参与实时盲投票,为所有已添加的模型建立合理的ELO排名。每个新添加的模型将自动进入投票池。[https://5uck1ess-tts-arena.hf.space/](https://5uck1ess-tts-arena.hf.space/) 请告知还需改进的地方。希望本地TTS能对大家更加友好。[https://github.com/5uck1ess/tts-bench](https://github.com/5uck1ess/tts-bench)
相似文章
TTS基准对比(截至2026年5月的所有已知TTS)
一个用户创建的用于比较本地TTS工具的基准测试,包含Windows和Mac的结果,Linux测试待完成。包含HTML结果页面和GitHub仓库。
语音到语音翻译模型基准测试
COMPASS是一个统一的语音到语音翻译(S2ST)基准测试框架,它整合了八个维度的46个指标,并在1,248个模型-语言配置上进行了评估。该框架识别了互补的架构优势,并提出了精简的指标子集,在保持排名的同时减少了评估时间。
@AlphaSignalAI:一个66M参数的模型刚刚在树莓派上击败了ElevenLabs。文本转语音多年来一直存在于云端。每个语音…
Supertonic 3是一个99M参数的开源TTS模型,完全在设备上运行,在树莓派上击败了ElevenLabs,在笔记本电脑CPU上的性能是实时的167倍。
OpenSTBench:超越语义评估的语音翻译
OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架,能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟,涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白,并为比较异构语音翻译系统提供了一个可复现的基准。
本地测试了VoxCPM2(开源TTS)。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。
对VoxCPM2的技术解析与基准测试,这是一款开源TTS模型,具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。