text-to-speech

标签

Cards List
#text-to-speech

我尝试制作了一个AI世界杯解说员,在比赛节奏变快前听起来很真实。

Reddit r/ArtificialInteligence · 13小时前

一次个人实验表明,为世界杯比赛构建的AI解说员在节奏较慢时效果真实,但快速比赛则会出现问题。

0 人收藏 0 人点赞
#text-to-speech

完全本地语音助手搭建指南

Lobsters Hottest · 昨天 缓存

基于树莓派和Platypush搭建完全本地语音助手指南,涵盖热词检测、语音转文字、文字转语音以及家庭自动化集成。

0 人收藏 0 人点赞
#text-to-speech

@LinearUncle: 推荐一家叫模思的中国公司的开源声音克隆仓库: MOSS-TTS 你朗读一段文字,它克隆你的声音,然后就可以用你的声音朗读任意文本,查看帖子详情看我实战如何使用,效果很好,可以以假乱真。 https://github.com/OpenMOS…

X AI KOLs Timeline · 4天前 缓存

MOSS-TTS是模思公司推出的开源声音克隆模型,用户朗读少量文本即可克隆声音,随后可用克隆的声音生成任意语音,效果逼真。

0 人收藏 0 人点赞
#text-to-speech

语音感觉是AI智能体被低估的输出层

Reddit r/AI_Agents · 5天前

本文讨论了语音作为AI智能体输出层未被充分利用的潜力,重点介绍了超越简单文本转语音的实际用例和工作流程挑战。

0 人收藏 0 人点赞
#text-to-speech

@Gorden_Sun: 有道开源Confucius4-TTS 1.3B大小的TTS模型,支持多语言,支持语音克隆,效果不错,速度特别快。 Github:https://github.com/netease-youdao/Confucius4-TTS… 在线使用:…

X AI KOLs Timeline · 6天前 缓存

有道开源了1.3B参数的Confucius4-TTS模型,支持14种语言的零样本语音克隆与跨语言语音合成,速度快且效果优秀。

0 人收藏 0 人点赞
#text-to-speech

@lmsysorg: SGLang-Omni 现已于第0天提供来自 @Open_MOSS 的 MOSS-TTS-Local Transformer v1.5!这是一个开源的 48 kHz 立体声 TTS 模式…

X AI KOLs Timeline · 6天前 缓存

MOSS-TTS-Local Transformer v1.5 是一个开源的 48 kHz 立体声 TTS 模型,具有零样本语音克隆、原生流式传输,并支持31种语言,基于 Qwen3-4B 骨干网构建,通过 SGLang-Omni 提供。

0 人收藏 0 人点赞
#text-to-speech

@MosiAI_Official: MOSS-TTS Local Transformer v1.5 现已推出。克隆任意声音。说任何语言。听到每一个细节。30多种语言,48 kHz …

X AI KOLs Following · 6天前 缓存

MosiAI发布了MOSS-TTS Local Transformer v1.5,这是一款支持语音克隆、30多种语言以及48 kHz高质量输出的文本转语音模型。

0 人收藏 0 人点赞
#text-to-speech

我发布了Inflect-Nano,一个极致微小的463万参数TTS模型。

Reddit r/LocalLLaMA · 6天前

Inflect-Nano,一个极致微小的463万参数文本转语音模型,已经发布。

0 人收藏 0 人点赞
#text-to-speech

@_philschmid: 语音生成的体验提升!现在你可以从Gemini TTS流式传输音频,无需等待。构建语音助手…

X AI KOLs Following · 6天前 缓存

Google的Gemini TTS现在支持流式音频生成,开发者可以构建即时响应的语音应用,无需等待完整音频输出。

0 人收藏 0 人点赞
#text-to-speech

@FakeMaidenMaker: 炸裂!这个开源项目免费文字转无 AI 味人声,还能克隆任何人的嗓音,并且用文字调整音色! GitHub 狂揽 30K star,出自面壁智能 OpenBMB,VoxCPM 之前拿过 GitHub 和 HuggingFace 双榜第一。 做…

X AI KOLs Timeline · 2026-06-17 缓存

VoxCPM2是OpenBMB开源的语音合成模型,采用无分词器的扩散自回归架构,支持30种语言、语音设计和可控语音克隆,仅需一句话即可克隆音色,或用文字创建全新声音,输出48kHz高质量音频,可商用。

0 人收藏 0 人点赞
#text-to-speech

owensong/Inflect-Nano-v1

Hugging Face Models Trending · 2026-06-16 缓存

Inflect-Nano-v1 是一个极小的英文文本转语音模型,总推理参数(包括其声码器)为 4.63M,专为本地高效的语音合成实验而设计。

0 人收藏 0 人点赞
#text-to-speech

@HuggingModels: 想象一个听起来如此自然的文本转语音模型,拥有8200万参数和超过1100万次下载。Kokoro-82M来了,一个…

X AI KOLs Timeline · 2026-06-16 缓存

Kokoro-82M是一个高度自然的文本转语音模型,拥有8200万参数和超过1100万次下载,代表了AI语音生成的重大进步。

0 人收藏 0 人点赞
#text-to-speech

@svpino: 这样的表现之后,呼叫中心不可能继续存在。听听这段对话,你分辨不出我是在和一个……

X AI KOLs Following · 2026-06-15 缓存

Cartesia 发布了 Sonic-3.5(文本转语音)和 Ink-2(语音转文本),声称它们是语音助手领域排名第一的流式模型,有可能颠覆呼叫中心。

0 人收藏 0 人点赞
#text-to-speech

哪个更好的本地移动TTS:Kokoro 还是 Supertonic?

Reddit r/LocalLLaMA · 2026-06-14

比较两个本地运行的移动TTS模型——Kokoro和Supertonic,质疑它们在初始演示之外的生产质量。

0 人收藏 0 人点赞
#text-to-speech

@Gorden_Sun: ZONOS2:开源MoE TTS模型 8B总参数,0.9B激活参数。支持多语言,支持语音克隆,支持中文,中文效果不错。 模型:

X AI KOLs Timeline · 2026-06-13 缓存

Zyphra released ZONOS2, an open-source MoE text-to-speech model trained on over 6 million hours of multilingual speech, supporting voice cloning and high-quality synthesis across many languages.

0 人收藏 0 人点赞
#text-to-speech

@ZyphraAI: 今天我们发布 ZONOS2,我们的下一代实时 TTS 模型,具有高保真语音克隆功能。ZONOS2 是最…

X AI KOLs Following · 2026-06-12 缓存

Zyphra 发布了 ZONOS2,一个开源的实时 TTS 模型,具有高保真语音克隆功能,采用 Apache 2.0 许可,可在基于 AMD 的 Zyphra Cloud 上使用。

0 人收藏 0 人点赞
#text-to-speech

Zyphra/ZONOS2

Hugging Face Models Trending · 2026-06-11 缓存

ZONOS2 是 Zyphra 推出的一款新型文本转语音模型,基于超过600万小时的多语言语音数据训练,采用混合专家架构,实现高质量语音克隆和低延迟。支持30多种语言,并提供高性能推理服务器。

0 人收藏 0 人点赞
#text-to-speech

iOS 27 Siri 正在使用 WaveRNN 和 FastSpeech2 [D]

Reddit r/MachineLearning · 2026-06-09

在 iOS 27 模拟器文件中发现了 WaveRNN 和 FastSpeech2 模型,表明它们用于 Siri 的文本转语音,同时还有一个用于音乐会排名的逻辑回归模型。

0 人收藏 0 人点赞
#text-to-speech

使用稀疏自编码器解释与引导文本转语音语言模型

Hugging Face Daily Papers · 2026-06-08 缓存

本文对CosyVoice3文本转语音语言模型应用稀疏自编码器,发现可解释的特征,这些特征可被引导以控制笑声、说话者性别和语速等属性,同时保留内容。

0 人收藏 0 人点赞
#text-to-speech

@Chenzeze777: 发现一个开源的语音合成模型,不说一声实在过意不去。 20 亿参数,200 万小时数据训练,30 种语言+9 种中国方言直接输入文本就合成,连四川话粤语东北话都有。 最离谱的是什么? 你用自然语言描述音色——「年轻女性,温柔甜美」——它就给…

X AI KOLs Timeline · 2026-06-08 缓存

介绍了一个开源的语音合成模型,20亿参数、200万小时训练,支持30种语言和9种中国方言,可用自然语言描述音色,3秒录音即可克隆声音,音质达48kHz,Apache-2.0协议免费商用。

0 人收藏 0 人点赞
Next →
← 返回首页

提交意见反馈