audio-generation

标签

Cards List
#audio-generation

有人用 Google 的 Lyria 3 Pro 试过生成歌曲吗?仅消耗了 8 美分的 API 额度,这也是我的首份生成作品……

Reddit r/singularity · 昨天 缓存

一位社区成员分享了通过 API 调用 Google 的 Lyria 3 Pro 生成曲目的实操体验,指出成本极低且初版输出质量出色。

0 人收藏 0 人点赞
#audio-generation

@billtheinvestor: 上海交通大学开源 F5-TTS 语音生成模型。该模型基于 10 万小时数据训练,支持中英多语言合成。技术特性包含 Zero-shot 声音克隆、基于总时长的速度控制、情感表现控制及长文本合成。支持商用。

X AI KOLs Timeline · 2天前 缓存

上海交通大学开源了 F5-TTS 语音生成模型,该模型基于 10 万小时数据训练,支持中英多语言合成及 Zero-shot 声音克隆,并允许商用。

1 人收藏 1 人点赞
#audio-generation

Gemini 3.1 Flash TTS

Simon Willison's Blog · 2026-04-15 缓存

Google 发布了 Gemini 3.1 Flash TTS,这是一个新的文本转语音模型,可通过 Gemini API 访问,支持基于提示的高级控制,以实现详细的语音方向、口音和说话风格。该模型能够生成复杂的音频,包括多说话人对话和特定角色的语音表演。

0 人收藏 0 人点赞
#audio-generation

@GoogleDeepMind: Gemini 3.1 Flash TTS 是我们迄今为止可控性最强的文本转语音模型。通过新的音频标签,您可以轻松控制声…

X AI KOLs · 2026-04-15 缓存

Google DeepMind 发布了 Gemini 3.1 Flash TTS,这是一个先进的文本转语音模型,配备新的音频标签,可通过文本命令实现对语音风格、语调和速度的细粒度控制。

0 人收藏 0 人点赞
#audio-generation

openbmb/VoxCPM2

Hugging Face Models Trending · 2026-04-03 缓存

VoxCPM2 是一个开源的、无分词器的扩散自回归文本转语音模型,支持30种语言,拥有20亿参数,48kHz音频输出,并具备从自然语言描述进行语音设计、可控语音克隆以及实时流式处理等功能。

0 人收藏 0 人点赞
#audio-generation

Lightricks/LTX-2.3

Hugging Face Models Trending · 2026-03-04 缓存

Lightricks 发布了 LTX-2.3,这是一个基于扩散的开放权重音视频基础模型,具有改进的质量和提示遵循性,提供多个检查点,包括蒸馏和 LoRA 变体,可在本地执行。

0 人收藏 0 人点赞
#audio-generation

Sora 2 系统卡

OpenAI Blog · 2025-09-30 缓存

# Sora 2 系统卡 来源:[https://openai.com/index/sora-2-system-card/](https://openai.com/index/sora-2-system-card/) OpenAISora 2 是我们最先进的视频和音频生成模型。在 Sora 的基础上,这个新模型引入了之前视频模型难以实现的功能——例如更准确的物理模拟、更逼真的画质、同步音频、增强的可控性和更广泛的风格范围。该模型能够以高度的精确度遵循用户指示。

0 人收藏 0 人点赞
#audio-generation

连续音频语言模型

Papers with Code Trending · 2025-09-08 缓存

本文介绍了连续音频语言模型(CALM),该模型使用连续帧而非离散token生成音频,以提升语音和音乐生成的保真度并降低计算成本。

0 人收藏 0 人点赞
#audio-generation

使用 Gemini 2.5 进行高级音频对话和生成

Google DeepMind Blog · 2025-06-03 缓存

Google 宣布 Gemini 2.5 具备先进的原生音频功能,可实现实时对话型 AI,支持自然语音生成、风格控制和 24 种以上语言的多模态理解。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈