文本转语音（TTS）基准测试更新：引入客观标准和盲投票（已涵盖46个模型，持续增加中）

Reddit r/LocalLLaMA 2026/06/09 16:02 工具

tts benchmark blind-voting elo open-source community

摘要

更新后的TTS基准测试引入了客观标准和实时盲投票机制，为46+模型创建ELO排名，并向社区开放参与。

感谢大家对我上一篇文章的贡献，提供了反馈和多种模型，并对评分系统提出了质疑。现在您可以参与实时盲投票，为所有已添加的模型建立合理的ELO排名。每个新添加的模型将自动进入投票池。[https://5uck1ess-tts-arena.hf.space/](https://5uck1ess-tts-arena.hf.space/) 请告知还需改进的地方。希望本地TTS能对大家更加友好。[https://github.com/5uck1ess/tts-bench](https://github.com/5uck1ess/tts-bench)

查看原文

相似文章

TTS基准对比（截至2026年5月的所有已知TTS）

Reddit r/LocalLLaMA

一个用户创建的用于比较本地TTS工具的基准测试，包含Windows和Mac的结果，Linux测试待完成。包含HTML结果页面和GitHub仓库。

语音到语音翻译模型基准测试

arXiv cs.CL

COMPASS是一个统一的语音到语音翻译(S2ST)基准测试框架，它整合了八个维度的46个指标，并在1,248个模型-语言配置上进行了评估。该框架识别了互补的架构优势，并提出了精简的指标子集，在保持排名的同时减少了评估时间。

@AlphaSignalAI：一个66M参数的模型刚刚在树莓派上击败了ElevenLabs。文本转语音多年来一直存在于云端。每个语音…

X AI KOLs Timeline

Supertonic 3是一个99M参数的开源TTS模型，完全在设备上运行，在树莓派上击败了ElevenLabs，在笔记本电脑CPU上的性能是实时的167倍。

OpenSTBench：超越语义评估的语音翻译

Hugging Face Daily Papers

OpenSTBench 是一个统一的、多维度的语音翻译系统评估框架，能够联合评估翻译质量、语音质量、说话人保持、情感保真度以及延迟，涵盖离线与流式场景下的 S2TT 和 S2ST 系统。该框架弥补了分散评估协议带来的空白，并为比较异构语音翻译系统提供了一个可复现的基准。

本地测试了VoxCPM2（开源TTS）。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。

Reddit r/ArtificialInteligence

对VoxCPM2的技术解析与基准测试，这是一款开源TTS模型，具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。

提交意见反馈