voice-cloning

标签

Cards List
#voice-cloning

构建了一个JARVIS风格的助手:具备唤醒词、视觉模式、本地语音克隆和LLM生成的系统命令

Reddit r/ArtificialInteligence · 2026-05-08

一位开发者构建了一个名为CYBER的JARVIS风格个人助手,具备唤醒词激活、通过XTTS v2的本地语音克隆、视觉模式以及LLM生成的系统命令,全部在本地运行,无需云端依赖。

0 人收藏 0 人点赞
#voice-cloning

@billtheinvestor: 上海交通大学开源 F5-TTS 语音生成模型。该模型基于 10 万小时数据训练,支持中英多语言合成。技术特性包含 Zero-shot 声音克隆、基于总时长的速度控制、情感表现控制及长文本合成。支持商用。

X AI KOLs Timeline · 2026-05-08 缓存

上海交通大学开源了 F5-TTS 语音生成模型,该模型基于 10 万小时数据训练,支持中英多语言合成及 Zero-shot 声音克隆,并允许商用。

1 人收藏 1 人点赞
#voice-cloning

ScenemaAI/scenema-audio

Hugging Face Models Trending · 2026-04-26 缓存

Scenema Audio 是一种零样本表现性语音克隆和语音生成模型,能够根据文本提示生成带有情感曲线、节奏和呼吸控制的语音。该模型基于音频扩散变换器,支持多语言生成、从10-20秒参考音频进行语音克隆,以及包含环境效果的场景感知音频。

0 人收藏 0 人点赞
#voice-cloning

怀念仅仅三年前的日子……

Reddit r/LocalLLaMA · 2026-04-22

一篇个人随笔,回顾过去三年AI的飞速演进:从早期ChatGPT和GPT-4的配额,到BabyAGI、DALL·E、语音克隆的登场。

0 人收藏 0 人点赞
#voice-cloning

ResembleAI/Dramabox

Hugging Face Models Trending · 2026-04-17 缓存

Dramabox 是 Resemble AI 开发的一个富有表现力的文本转语音模型,通过提示驱动控制来实现说话人身份、情感和表达方式,并可选地使用 10 秒参考音频进行声音克隆。该模型基于 LTX-2.3 音频扩散变换器构建,已在 Hugging Face 上开源。

0 人收藏 0 人点赞
#voice-cloning

k2-fsa/OmniVoice

Hugging Face Models Trending · 2026-03-30 缓存

OmniVoice 是一款大规模多语言零样本文本转语音模型,支持超过 600 种语言,基于扩散语言模型架构构建,具备快速推理和语音克隆能力。

0 人收藏 0 人点赞
#voice-cloning

Qwen3-TTS 技术报告

Papers with Code Trending · 2026-01-22 缓存

Qwen3-TTS 技术报告介绍了一系列先进的多语言文本转语音模型,具备语音克隆和可控生成能力,采用双轨 LM 架构和专用分词器以实现低延迟流式处理。

0 人收藏 0 人点赞
#voice-cloning

IndexTTS: 一个工业级可控高效的零样本 文本转语音系统

Papers with Code Trending · 2025-02-08 缓存

IndexTTS 是一个增强型文本转语音系统,结合了 XTTS 和 Tortoise 模型,采用混合字符-拼音建模和优化的向量量化,在自然度、发音可控性和推理速度上优于现有的开源 TTS 系统。

0 人收藏 0 人点赞
#voice-cloning

jamiepine/voicebox

GitHub Trending (daily) · 2026-06-20 缓存

Voicebox 是一个开源的、本地优先的 AI 语音工作室,支持语音克隆、语音生成、听写和 AI 代理集成,提供隐私保护和多引擎 TTS 支持。

0 人收藏 0 人点赞
#voice-cloning

OpenBMB/VoxCPM

GitHub Trending (daily) · 2026-05-30 缓存

OpenBMB发布VoxCPM2,一个2B参数的无分词器TTS模型,基于超过200万小时的多语言语音数据训练,支持30种语言、语音设计、可控克隆和48kHz输出。

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈