text-to-speech

#text-to-speech

我尝试制作了一个AI世界杯解说员，在比赛节奏变快前听起来很真实。

Reddit r/ArtificialInteligence ↗ · 13小时前

一次个人实验表明，为世界杯比赛构建的AI解说员在节奏较慢时效果真实，但快速比赛则会出现问题。

0 人收藏 0 人点赞

#text-to-speech

完全本地语音助手搭建指南

Lobsters Hottest ↗ · 昨天缓存

基于树莓派和Platypush搭建完全本地语音助手指南，涵盖热词检测、语音转文字、文字转语音以及家庭自动化集成。

0 人收藏 0 人点赞

#text-to-speech

@LinearUncle: 推荐一家叫模思的中国公司的开源声音克隆仓库： MOSS-TTS 你朗读一段文字，它克隆你的声音，然后就可以用你的声音朗读任意文本，查看帖子详情看我实战如何使用，效果很好，可以以假乱真。 https://github.com/OpenMOS…

X AI KOLs Timeline ↗ · 4天前缓存

MOSS-TTS是模思公司推出的开源声音克隆模型，用户朗读少量文本即可克隆声音，随后可用克隆的声音生成任意语音，效果逼真。

0 人收藏 0 人点赞

#text-to-speech

语音感觉是AI智能体被低估的输出层

Reddit r/AI_Agents ↗ · 5天前

本文讨论了语音作为AI智能体输出层未被充分利用的潜力，重点介绍了超越简单文本转语音的实际用例和工作流程挑战。

0 人收藏 0 人点赞

#text-to-speech

@Gorden_Sun: 有道开源Confucius4-TTS 1.3B大小的TTS模型，支持多语言，支持语音克隆，效果不错，速度特别快。 Github：https://github.com/netease-youdao/Confucius4-TTS… 在线使用：…

X AI KOLs Timeline ↗ · 6天前缓存

有道开源了1.3B参数的Confucius4-TTS模型，支持14种语言的零样本语音克隆与跨语言语音合成，速度快且效果优秀。

0 人收藏 0 人点赞

#text-to-speech

@lmsysorg: SGLang-Omni 现已于第0天提供来自 @Open_MOSS 的 MOSS-TTS-Local Transformer v1.5！这是一个开源的 48 kHz 立体声 TTS 模式…

X AI KOLs Timeline ↗ · 6天前缓存

MOSS-TTS-Local Transformer v1.5 是一个开源的 48 kHz 立体声 TTS 模型，具有零样本语音克隆、原生流式传输，并支持31种语言，基于 Qwen3-4B 骨干网构建，通过 SGLang-Omni 提供。

0 人收藏 0 人点赞

#text-to-speech

@MosiAI_Official: MOSS-TTS Local Transformer v1.5 现已推出。克隆任意声音。说任何语言。听到每一个细节。30多种语言，48 kHz …

X AI KOLs Following ↗ · 6天前缓存

MosiAI发布了MOSS-TTS Local Transformer v1.5，这是一款支持语音克隆、30多种语言以及48 kHz高质量输出的文本转语音模型。

0 人收藏 0 人点赞

#text-to-speech

我发布了Inflect-Nano，一个极致微小的463万参数TTS模型。

Reddit r/LocalLLaMA ↗ · 6天前

Inflect-Nano，一个极致微小的463万参数文本转语音模型，已经发布。

0 人收藏 0 人点赞

#text-to-speech

@_philschmid: 语音生成的体验提升！现在你可以从Gemini TTS流式传输音频，无需等待。构建语音助手…

X AI KOLs Following ↗ · 6天前缓存

Google的Gemini TTS现在支持流式音频生成，开发者可以构建即时响应的语音应用，无需等待完整音频输出。

0 人收藏 0 人点赞

#text-to-speech

@FakeMaidenMaker: 炸裂！这个开源项目免费文字转无 AI 味人声，还能克隆任何人的嗓音，并且用文字调整音色！ GitHub 狂揽 30K star，出自面壁智能 OpenBMB，VoxCPM 之前拿过 GitHub 和 HuggingFace 双榜第一。做…

X AI KOLs Timeline ↗ · 2026-06-17 缓存

VoxCPM2是OpenBMB开源的语音合成模型，采用无分词器的扩散自回归架构，支持30种语言、语音设计和可控语音克隆，仅需一句话即可克隆音色，或用文字创建全新声音，输出48kHz高质量音频，可商用。

0 人收藏 0 人点赞

#text-to-speech

owensong/Inflect-Nano-v1

Hugging Face Models Trending ↗ · 2026-06-16 缓存

Inflect-Nano-v1 是一个极小的英文文本转语音模型，总推理参数（包括其声码器）为 4.63M，专为本地高效的语音合成实验而设计。

0 人收藏 0 人点赞

#text-to-speech

@HuggingModels: 想象一个听起来如此自然的文本转语音模型，拥有8200万参数和超过1100万次下载。Kokoro-82M来了，一个…

X AI KOLs Timeline ↗ · 2026-06-16 缓存

Kokoro-82M是一个高度自然的文本转语音模型，拥有8200万参数和超过1100万次下载，代表了AI语音生成的重大进步。

0 人收藏 0 人点赞

#text-to-speech

@svpino: 这样的表现之后，呼叫中心不可能继续存在。听听这段对话，你分辨不出我是在和一个……

X AI KOLs Following ↗ · 2026-06-15 缓存

Cartesia 发布了 Sonic-3.5（文本转语音）和 Ink-2（语音转文本），声称它们是语音助手领域排名第一的流式模型，有可能颠覆呼叫中心。

0 人收藏 0 人点赞

#text-to-speech

哪个更好的本地移动TTS：Kokoro 还是 Supertonic？

Reddit r/LocalLLaMA ↗ · 2026-06-14

比较两个本地运行的移动TTS模型——Kokoro和Supertonic，质疑它们在初始演示之外的生产质量。

0 人收藏 0 人点赞

#text-to-speech

@Gorden_Sun: ZONOS2：开源MoE TTS模型 8B总参数，0.9B激活参数。支持多语言，支持语音克隆，支持中文，中文效果不错。模型：

X AI KOLs Timeline ↗ · 2026-06-13 缓存

Zyphra released ZONOS2, an open-source MoE text-to-speech model trained on over 6 million hours of multilingual speech, supporting voice cloning and high-quality synthesis across many languages.

0 人收藏 0 人点赞

#text-to-speech

@ZyphraAI: 今天我们发布 ZONOS2，我们的下一代实时 TTS 模型，具有高保真语音克隆功能。ZONOS2 是最…

X AI KOLs Following ↗ · 2026-06-12 缓存

Zyphra 发布了 ZONOS2，一个开源的实时 TTS 模型，具有高保真语音克隆功能，采用 Apache 2.0 许可，可在基于 AMD 的 Zyphra Cloud 上使用。

0 人收藏 0 人点赞

#text-to-speech

Zyphra/ZONOS2

Hugging Face Models Trending ↗ · 2026-06-11 缓存

ZONOS2 是 Zyphra 推出的一款新型文本转语音模型，基于超过600万小时的多语言语音数据训练，采用混合专家架构，实现高质量语音克隆和低延迟。支持30多种语言，并提供高性能推理服务器。

0 人收藏 0 人点赞

#text-to-speech

iOS 27 Siri 正在使用 WaveRNN 和 FastSpeech2 [D]

Reddit r/MachineLearning ↗ · 2026-06-09

在 iOS 27 模拟器文件中发现了 WaveRNN 和 FastSpeech2 模型，表明它们用于 Siri 的文本转语音，同时还有一个用于音乐会排名的逻辑回归模型。

0 人收藏 0 人点赞

#text-to-speech

使用稀疏自编码器解释与引导文本转语音语言模型

Hugging Face Daily Papers ↗ · 2026-06-08 缓存

本文对CosyVoice3文本转语音语言模型应用稀疏自编码器，发现可解释的特征，这些特征可被引导以控制笑声、说话者性别和语速等属性，同时保留内容。

0 人收藏 0 人点赞

#text-to-speech

@Chenzeze777: 发现一个开源的语音合成模型，不说一声实在过意不去。 20 亿参数，200 万小时数据训练，30 种语言+9 种中国方言直接输入文本就合成，连四川话粤语东北话都有。最离谱的是什么？你用自然语言描述音色——「年轻女性，温柔甜美」——它就给…

X AI KOLs Timeline ↗ · 2026-06-08 缓存

介绍了一个开源的语音合成模型，20亿参数、200万小时训练，支持30种语言和9种中国方言，可用自然语言描述音色，3秒录音即可克隆声音，音质达48kHz，Apache-2.0协议免费商用。

0 人收藏 0 人点赞

text-to-speech

提交意见反馈