text-to-speech

标签

#text-to-speech

dots.tts 2B🎙️ 来自RedNote的SOTA文本转语音模型

Reddit r/LocalLLaMA ↗ · 2026-06-05

RedNote发布了dots.tts，一个2B参数的开源文本转语音模型，支持零样本语音克隆和48kHz合成。

1 人收藏 1 人点赞

#text-to-speech

@AdinaYakup: dots.tts 来自小红书的新TTS模型 2B参数 - Apache 2.0 完全连续架构（无编解码器令牌）48kHz合成…

X AI KOLs Following ↗ · 2026-06-05 缓存

Dots.tts 是来自小红书（RedNote）的新TTS模型，拥有2B参数，遵循Apache 2.0许可，采用完全连续架构（无编解码器令牌），支持48kHz合成和零样本语音克隆。

0 人收藏 0 人点赞

#text-to-speech

@QT9277: 《不是，这AI声音合成已经变态到这种程度了？？？》阿台我今天刷GitHub直接懵了。 VoxCPM2，趋势榜第一，星标干到2万+，海外彻底炸了。我本来以为是又一个PPT开源项目，结果仔细看了眼Demo——我耳朵真的分不清哪个是真人了。 …

X AI KOLs Timeline ↗ · 2026-06-05 缓存

介绍VoxCPM2，一个完全免费商用、开源的多语言语音合成模型，支持声音设计、克隆及48kHz高质量输出，在GitHub趋势榜第一。

0 人收藏 0 人点赞

#text-to-speech

dots.tts 技术报告

Hugging Face Daily Papers ↗ · 2026-06-05 缓存

dots.tts 提出了一个拥有 2B 参数的连续自回归文本转语音 (TTS) 模型，基于多语言数据进行训练，在 Seed-TTS-Eval 等基准测试上取得了最先进的性能，并通过 CFG-aware MeanFlow 蒸馏实现了低延迟流式生成。该模型、代码和检查点均以 Apache 2.0 许可证发布。

0 人收藏 0 人点赞

#text-to-speech

Higgs Audio v3 TTS 4B。专为语音聊天打造。支持100种语言和内联控制。

Reddit r/LocalLLaMA ↗ · 2026-06-04

Higgs Audio v3 是一个 4B 参数的 TTS 模型，专为语音聊天应用设计，支持 100 种语言并具备内联控制能力。

0 人收藏 0 人点赞

#text-to-speech

Microsoft MAI-Voice-2

Product Hunt ↗ · 2026-06-04

微软发布了 MAI-Voice-2，这是一款支持 15 种语言语音克隆的表现力丰富的文本转语音系统。

0 人收藏 0 人点赞

#text-to-speech

@ElevenLabsDevs: 呼叫您的 Hermes Agent

X AI KOLs Following ↗ · 2026-06-04

ElevenLabs 引入了呼叫您的 Hermes Agent 的功能，通过他们的平台实现与AI代理的语音交互。

0 人收藏 0 人点赞

#text-to-speech

@uniswap12: 微软开源了一个语音 AI，60 分钟长音频一次转写，4 个人同时说话都能搞定 VibeVoice，微软开源，24.8k star，今天才知道这个。录音一键转文字这件事，我之前一直用 Whisper，但它处理长会议录音经常超时，多人说话识别…

X AI KOLs Timeline ↗ · 2026-06-04 缓存

微软开源了语音AI框架VibeVoice，支持60分钟长音频一次性转写、多说话人分离和时间戳标注，同时提供多角色TTS合成能力，底层基于Qwen2.5并配有0.5B轻量实时版本，已在GitHub获得24.8k星标。

0 人收藏 0 人点赞

#text-to-speech

本地测试了VoxCPM2（开源TTS）。“终极克隆”模式对呼吸和口音的捕捉效果令人惊叹。

Reddit r/ArtificialInteligence ↗ · 2026-06-04

对VoxCPM2的技术解析与基准测试，这是一款开源TTS模型，具备“终极克隆模式”以捕捉呼吸与口音。本地测试显示其低VRAM占用和跨语言口音保持能力。

0 人收藏 0 人点赞

#text-to-speech

@omarsar0: 又一个超棒的开源发布。Miso One 是一个8B参数文本转语音模型，具备真实情感范围，因此配音…

X AI KOLs Following ↗ · 2026-06-03 缓存

Miso One 是一个开源的8B参数文本转语音模型，具备真实情感范围和110毫秒延迟，专为配音工作设计。

0 人收藏 0 人点赞

#text-to-speech

@MosiAI_Official: MOSS-TTS-v1.5 刚刚以 20.6K 下载量登上 Hugging Face 热门排行榜的 Text-to-Speech 分类第一。一个多语言、可控…

X AI KOLs Timeline ↗ · 2026-06-02 缓存

MOSS-TTS-v1.5 是一个多语言可控 TTS 模型，支持语音克隆和长文本生成，以 20.6K 下载量登上 Hugging Face 热门排行榜第一名。

0 人收藏 0 人点赞

#text-to-speech

WavTTS: 通过直接原始波形建模实现高质量零样本TTS

Papers with Code Trending ↗ · 2026-06-02 缓存

WavTTS 提出了首个使用流匹配和扩散变换器的原始波形生成式文本转语音模型，其性能可与潜在空间扩散模型相媲美，同时避免了压缩表示导致的信息损失。

0 人收藏 0 人点赞

#text-to-speech

@HuggingPapers: NVIDIA 刚刚在 Hugging Face 上发布了 Kokoro TTS 模型的优化版本。一款轻量级、8200万参数的语音合成器…

X AI KOLs Following ↗ · 2026-05-29 缓存

NVIDIA 在 Hugging Face 上发布了 Kokoro TTS 模型的优化 ONNX 版本。这款拥有 8200 万参数的模型轻量、快速，且可用于商业用途。

0 人收藏 0 人点赞

#text-to-speech

SwanVoice: 面向独白和对话的表现力长文本零样本语音合成

Hugging Face Daily Papers ↗ · 2026-05-29 缓存

SwanVoice 是一种零样本文本转语音模型，专为富有表现力的长文本独白和对话合成而设计，结合了 VAE、流匹配 DiT 和扩散后训练，在丰富度和层次感得分上均优于现有基线模型。

0 人收藏 0 人点赞

#text-to-speech

@hisevenih: Ai语音圈直接炸锅了。这个 GitHub 开源黑科技，把 AI 语音做到了离谱的程度，真正实现了：一句话，一个声音。记住这个项目名字：VoxCPM2 它在 GitHub 已经拿下了 20K Star。最夸张的是，它甚至无需参考音…

X AI KOLs Timeline ↗ · 2026-05-28 缓存

GitHub 开源项目 VoxCPM2 实现了无需参考音频的 AI 语音克隆，仅需一句话即可精准生成目标声线，已获 20K Star。

0 人收藏 0 人点赞

#text-to-speech

OpenMOSS-Team/MOSS-TTS-v1.5 · Hugging Face

Reddit r/LocalLLaMA ↗ · 2026-05-26 缓存

MOSS-TTS v1.5是一个更新的开源文本转语音模型，具有改进的多语言合成（支持31种语言）、更稳定的零样本语音克隆以及显式的内联停顿控制。

0 人收藏 0 人点赞

#text-to-speech

@denziideng: 又发现一个AI语音克隆“降维打击”…… 之前分享的 CosyVoice 3秒可克隆，觉得已经够吓人了，结果今天这个更要命，随便录了1分钟自己的声音训练后，它直接把声线、语气、情感、呼吸、停顿全部复刻，简直像本人灵魂附体！阿里达摩院的 C…

X AI KOLs Timeline ↗ · 2026-05-26 缓存

GPT-SoVITS 是一款开源 AI 语音克隆工具，支持零样本（5秒声音）和少样本（1分钟训练）高保真声音克隆，跨语言推理，并自带完整 WebUI 工具链，在 GitHub 上已获 57.8k 星，成为语音克隆领域的领先开源项目。

0 人收藏 0 人点赞

#text-to-speech

@tom_doerr: 零样本语音克隆支持30种语言 https://github.com/sunnyxrxrx/X-Voice…

X AI KOLs Timeline ↗ · 2026-05-26 缓存

X-Voice 是一个基于流匹配的多语言文本转语音系统，支持跨30种语言的零样本语音克隆，并提供开源代码、模型及演示。

0 人收藏 0 人点赞

#text-to-speech

@wsl8297: 想把电子书或文档做成有声书？很多工具不是声音太“机器人”，就是不支持字幕同步，折腾一圈还是不满意。我后来发现了开源项目 Abogen：支持 ePub、PDF、纯文本等，一键转高质量音频，还能自动生成同步字幕。它底层用 Kokoro 语…

X AI KOLs Timeline ↗ · 2026-05-24 缓存

Abogen 是一个开源工具，可将 ePub、PDF 等文档一键转为高质量音频，并自动生成同步字幕，支持语音混合器和多种部署方式。

0 人收藏 0 人点赞

#text-to-speech

TTS基准对比（截至2026年5月的所有已知TTS）

Reddit r/LocalLLaMA ↗ · 2026-05-24

一个用户创建的用于比较本地TTS工具的基准测试，包含Windows和Mac的结果，Linux测试待完成。包含HTML结果页面和GitHub仓库。

0 人收藏 0 人点赞

← 返回首页

提交意见反馈