@GoogleDeepMind: Gemini 3.1 Flash TTS 是我们迄今为止可控性最强的文本转语音模型。通过新的音频标签,您可以轻松控制声…

X AI KOLs 模型

摘要

Google DeepMind 发布了 Gemini 3.1 Flash TTS,这是一个先进的文本转语音模型,配备新的音频标签,可通过文本命令实现对语音风格、语调和速度的细粒度控制。

Gemini 3.1 Flash TTS 是我们迄今为止可控性最强的文本转语音模型。通过新的音频标签,您可以轻松地通过文本命令控制语音风格、语调和速度。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 09:39

Gemini 3.1 Flash TTS 是我们迄今为止控制能力最强的文本转语音模型。通过新的音频标签,你可以轻松地通过文本命令控制语音风格、语调和节奏。

相似文章

Gemini 3.1 Flash TTS

Simon Willison's Blog

Google 发布了 Gemini 3.1 Flash TTS,这是一个新的文本转语音模型,可通过 Gemini API 访问,支持基于提示的高级控制,以实现详细的语音方向、口音和说话风格。该模型能够生成复杂的音频,包括多说话人对话和特定角色的语音表演。

Gemini 音频模型升级,打造更强大的语音体验

Google DeepMind Blog

Google 更新了 Gemini 2.5 Flash Native Audio,以提升实时语音智能体的能力,包括更精准的函数调用、更好的指令遵循能力,以及更流畅的对话上下文检索。此次更新还在 Google Translate 应用 beta 版中引入了实时语音翻译功能,可在 70 多种语言中保留语音语调。

推出 Gemini 2.0:我们为智能体时代打造的新型 AI 模型

Google DeepMind Blog

Google DeepMind 推出 Gemini 2.0,这是一款新型智能体 AI 模型,具备原生图像和音频输出、增强的工具使用能力和多模态功能,专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出,计划于 2025 年初实现更广泛的可用性。

Gemini 2.5:我们最聪慧的模型进一步升级

Google DeepMind Blog

谷歌发布 Gemini 2.5 系列更新,包括性能改进的 2.5 Pro 和 Flash 模型,新增功能包括 Deep Think(增强型推理模式)、原生音频输出和通过 Project Mariner 实现的计算机使用能力。这些模型现已在 WebDev Arena 和 LMArena 排行榜中领先。