@GoogleDeepMind: Gemini 3.1 Flash TTS 是我们迄今为止可控性最强的文本转语音模型。通过新的音频标签，您可以轻松控制声…

X AI KOLs 2026/04/15 16:05 模型

摘要

Google DeepMind 发布了 Gemini 3.1 Flash TTS，这是一个先进的文本转语音模型，配备新的音频标签，可通过文本命令实现对语音风格、语调和速度的细粒度控制。

Gemini 3.1 Flash TTS 是我们迄今为止可控性最强的文本转语音模型。通过新的音频标签，您可以轻松地通过文本命令控制语音风格、语调和速度。

查看原文

查看缓存全文

缓存时间: 2026/04/20 09:39

Gemini 3.1 Flash TTS 是我们迄今为止控制能力最强的文本转语音模型。通过新的音频标签，你可以轻松地通过文本命令控制语音风格、语调和节奏。

相似文章

Gemini 3.1 Flash TTS

Simon Willison's Blog

Google 发布了 Gemini 3.1 Flash TTS，这是一个新的文本转语音模型，可通过 Gemini API 访问，支持基于提示的高级控制，以实现详细的语音方向、口音和说话风格。该模型能够生成复杂的音频，包括多说话人对话和特定角色的语音表演。

Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

Google DeepMind Blog

Google 发布了 Gemini 3.1 Flash Live，这是一款全新的高质量音频模型，专为更自然、更可靠的实时语音交互而设计，具备更低的延迟和更强的推理能力。

Gemini 音频模型升级，打造更强大的语音体验

Google DeepMind Blog

Google 更新了 Gemini 2.5 Flash Native Audio，以提升实时语音智能体的能力，包括更精准的函数调用、更好的指令遵循能力，以及更流畅的对话上下文检索。此次更新还在 Google Translate 应用 beta 版中引入了实时语音翻译功能，可在 70 多种语言中保留语音语调。

@GoogleDeepMind: 介绍Gemini 3.5：我们最新的模型系列，结合前沿智能与现实行动。首个…

X AI KOLs Following

谷歌DeepMind宣布推出Gemini 3.5，这是一个结合前沿智能与现实行动的新模型系列，首发型号为3.5 Flash，是目前在代理和编码方面最强大的模型。

借助 Gemini 3.5 Flash，谷歌将下一波 AI 押注在智能体而非聊天机器人上

TechCrunch AI

谷歌发布了 Gemini 3.5 Flash，这是一款针对编码和自主智能体优化的新 AI 模型，将重点从聊天机器人转向智能体 AI。它的性能优于之前的模型，并为 Antigravity 2.0 和 Gemini Spark 等新产品提供支持。