audio-generation

#audio-generation

有人用 Google 的 Lyria 3 Pro 试过生成歌曲吗？仅消耗了 8 美分的 API 额度，这也是我的首份生成作品……

Reddit r/singularity ↗ · 昨天缓存

一位社区成员分享了通过 API 调用 Google 的 Lyria 3 Pro 生成曲目的实操体验，指出成本极低且初版输出质量出色。

0 人收藏 0 人点赞

#audio-generation

@billtheinvestor: 上海交通大学开源 F5-TTS 语音生成模型。该模型基于 10 万小时数据训练，支持中英多语言合成。技术特性包含 Zero-shot 声音克隆、基于总时长的速度控制、情感表现控制及长文本合成。支持商用。

X AI KOLs Timeline ↗ · 2天前缓存

上海交通大学开源了 F5-TTS 语音生成模型，该模型基于 10 万小时数据训练，支持中英多语言合成及 Zero-shot 声音克隆，并允许商用。

1 人收藏 1 人点赞

#audio-generation

Gemini 3.1 Flash TTS

Simon Willison's Blog ↗ · 2026-04-15 缓存

Google 发布了 Gemini 3.1 Flash TTS，这是一个新的文本转语音模型，可通过 Gemini API 访问，支持基于提示的高级控制，以实现详细的语音方向、口音和说话风格。该模型能够生成复杂的音频，包括多说话人对话和特定角色的语音表演。

0 人收藏 0 人点赞

#audio-generation

@GoogleDeepMind: Gemini 3.1 Flash TTS 是我们迄今为止可控性最强的文本转语音模型。通过新的音频标签，您可以轻松控制声…

X AI KOLs ↗ · 2026-04-15 缓存

Google DeepMind 发布了 Gemini 3.1 Flash TTS，这是一个先进的文本转语音模型，配备新的音频标签，可通过文本命令实现对语音风格、语调和速度的细粒度控制。

0 人收藏 0 人点赞

#audio-generation

openbmb/VoxCPM2

Hugging Face Models Trending ↗ · 2026-04-03 缓存

VoxCPM2 是一个开源的、无分词器的扩散自回归文本转语音模型，支持30种语言，拥有20亿参数，48kHz音频输出，并具备从自然语言描述进行语音设计、可控语音克隆以及实时流式处理等功能。

0 人收藏 0 人点赞

#audio-generation

Lightricks/LTX-2.3

Hugging Face Models Trending ↗ · 2026-03-04 缓存

Lightricks 发布了 LTX-2.3，这是一个基于扩散的开放权重音视频基础模型，具有改进的质量和提示遵循性，提供多个检查点，包括蒸馏和 LoRA 变体，可在本地执行。

0 人收藏 0 人点赞

#audio-generation

# Sora 2 系统卡来源：[https://openai.com/index/sora-2-system-card/](https://openai.com/index/sora-2-system-card/) OpenAISora 2 是我们最先进的视频和音频生成模型。在 Sora 的基础上，这个新模型引入了之前视频模型难以实现的功能——例如更准确的物理模拟、更逼真的画质、同步音频、增强的可控性和更广泛的风格范围。该模型能够以高度的精确度遵循用户指示。

0 人收藏 0 人点赞

#audio-generation

连续音频语言模型

Papers with Code Trending ↗ · 2025-09-08 缓存

本文介绍了连续音频语言模型（CALM），该模型使用连续帧而非离散token生成音频，以提升语音和音乐生成的保真度并降低计算成本。

0 人收藏 0 人点赞

#audio-generation

使用 Gemini 2.5 进行高级音频对话和生成

Google DeepMind Blog ↗ · 2025-06-03 缓存

Google 宣布 Gemini 2.5 具备先进的原生音频功能，可实现实时对话型 AI，支持自然语音生成、风格控制和 24 种以上语言的多模态理解。

0 人收藏 0 人点赞

audio-generation

提交意见反馈