voice-cloning

#voice-cloning

构建了一个JARVIS风格的助手：具备唤醒词、视觉模式、本地语音克隆和LLM生成的系统命令

Reddit r/ArtificialInteligence ↗ · 2026-05-08

一位开发者构建了一个名为CYBER的JARVIS风格个人助手，具备唤醒词激活、通过XTTS v2的本地语音克隆、视觉模式以及LLM生成的系统命令，全部在本地运行，无需云端依赖。

0 人收藏 0 人点赞

#voice-cloning

@billtheinvestor: 上海交通大学开源 F5-TTS 语音生成模型。该模型基于 10 万小时数据训练，支持中英多语言合成。技术特性包含 Zero-shot 声音克隆、基于总时长的速度控制、情感表现控制及长文本合成。支持商用。

X AI KOLs Timeline ↗ · 2026-05-08 缓存

上海交通大学开源了 F5-TTS 语音生成模型，该模型基于 10 万小时数据训练，支持中英多语言合成及 Zero-shot 声音克隆，并允许商用。

1 人收藏 1 人点赞

#voice-cloning

ScenemaAI/scenema-audio

Hugging Face Models Trending ↗ · 2026-04-26 缓存

Scenema Audio 是一种零样本表现性语音克隆和语音生成模型，能够根据文本提示生成带有情感曲线、节奏和呼吸控制的语音。该模型基于音频扩散变换器，支持多语言生成、从10-20秒参考音频进行语音克隆，以及包含环境效果的场景感知音频。

0 人收藏 0 人点赞

#voice-cloning

怀念仅仅三年前的日子……

Reddit r/LocalLLaMA ↗ · 2026-04-22

一篇个人随笔，回顾过去三年AI的飞速演进：从早期ChatGPT和GPT-4的配额，到BabyAGI、DALL·E、语音克隆的登场。

0 人收藏 0 人点赞

#voice-cloning

ResembleAI/Dramabox

Hugging Face Models Trending ↗ · 2026-04-17 缓存

Dramabox 是 Resemble AI 开发的一个富有表现力的文本转语音模型，通过提示驱动控制来实现说话人身份、情感和表达方式，并可选地使用 10 秒参考音频进行声音克隆。该模型基于 LTX-2.3 音频扩散变换器构建，已在 Hugging Face 上开源。

0 人收藏 0 人点赞

#voice-cloning

k2-fsa/OmniVoice

Hugging Face Models Trending ↗ · 2026-03-30 缓存

OmniVoice 是一款大规模多语言零样本文本转语音模型，支持超过 600 种语言，基于扩散语言模型架构构建，具备快速推理和语音克隆能力。

0 人收藏 0 人点赞

#voice-cloning

Qwen3-TTS 技术报告

Papers with Code Trending ↗ · 2026-01-22 缓存

Qwen3-TTS 技术报告介绍了一系列先进的多语言文本转语音模型，具备语音克隆和可控生成能力，采用双轨 LM 架构和专用分词器以实现低延迟流式处理。

0 人收藏 0 人点赞

#voice-cloning

IndexTTS: 一个工业级可控高效的零样本文本转语音系统

Papers with Code Trending ↗ · 2025-02-08 缓存

IndexTTS 是一个增强型文本转语音系统，结合了 XTTS 和 Tortoise 模型，采用混合字符-拼音建模和优化的向量量化，在自然度、发音可控性和推理速度上优于现有的开源 TTS 系统。

0 人收藏 0 人点赞

#voice-cloning

jamiepine/voicebox

GitHub Trending (daily) ↗ · 2026-06-20 缓存

Voicebox 是一个开源的、本地优先的 AI 语音工作室，支持语音克隆、语音生成、听写和 AI 代理集成，提供隐私保护和多引擎 TTS 支持。

0 人收藏 0 人点赞

#voice-cloning

OpenBMB/VoxCPM

GitHub Trending (daily) ↗ · 2026-05-30 缓存

OpenBMB发布VoxCPM2，一个2B参数的无分词器TTS模型，基于超过200万小时的多语言语音数据训练，支持30种语言、语音设计、可控克隆和48kHz输出。

0 人收藏 0 人点赞

voice-cloning

提交意见反馈