@GoogleDeepMind: Gemini 3.1 Flash TTS 是我们迄今为止可控性最强的文本转语音模型。通过新的音频标签,您可以轻松控制声…
摘要
Google DeepMind 发布了 Gemini 3.1 Flash TTS,这是一个先进的文本转语音模型,配备新的音频标签,可通过文本命令实现对语音风格、语调和速度的细粒度控制。
查看缓存全文
缓存时间: 2026/04/20 09:39
Gemini 3.1 Flash TTS 是我们迄今为止控制能力最强的文本转语音模型。通过新的音频标签,你可以轻松地通过文本命令控制语音风格、语调和节奏。
相似文章
Gemini 3.1 Flash TTS
Google 发布了 Gemini 3.1 Flash TTS,这是一个新的文本转语音模型,可通过 Gemini API 访问,支持基于提示的高级控制,以实现详细的语音方向、口音和说话风格。该模型能够生成复杂的音频,包括多说话人对话和特定角色的语音表演。
Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠
Google 发布了 Gemini 3.1 Flash Live,这是一款全新的高质量音频模型,专为更自然、更可靠的实时语音交互而设计,具备更低的延迟和更强的推理能力。
Gemini 音频模型升级,打造更强大的语音体验
Google 更新了 Gemini 2.5 Flash Native Audio,以提升实时语音智能体的能力,包括更精准的函数调用、更好的指令遵循能力,以及更流畅的对话上下文检索。此次更新还在 Google Translate 应用 beta 版中引入了实时语音翻译功能,可在 70 多种语言中保留语音语调。
推出 Gemini 2.0:我们为智能体时代打造的新型 AI 模型
Google DeepMind 推出 Gemini 2.0,这是一款新型智能体 AI 模型,具备原生图像和音频输出、增强的工具使用能力和多模态功能,专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出,计划于 2025 年初实现更广泛的可用性。
Gemini 2.5:我们最聪慧的模型进一步升级
谷歌发布 Gemini 2.5 系列更新,包括性能改进的 2.5 Pro 和 Flash 模型,新增功能包括 Deep Think(增强型推理模式)、原生音频输出和通过 Project Mariner 实现的计算机使用能力。这些模型现已在 WebDev Arena 和 LMArena 排行榜中领先。