Gemini 3.1 Flash TTS
摘要
Google 发布了 Gemini 3.1 Flash TTS,这是一个新的文本转语音模型,可通过 Gemini API 访问,支持基于提示的高级控制,以实现详细的语音方向、口音和说话风格。该模型能够生成复杂的音频,包括多说话人对话和特定角色的语音表演。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 08:27
# Gemini 3.1 Flash TTS
来源:https://simonwillison.net/2026/Apr/15/gemini-31-flash-tts/
2026年4月15日 \- 链接博客
**Gemini 3\.1 Flash TTS (https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/)**。谷歌今天发布了 Gemini 3.1 Flash TTS,这是一个全新的文本转语音模型,可以通过提示词来指导输出。
该模型通过标准 Gemini API 提供,使用`gemini\-3\.1\-flash\-tts\-preview`作为模型 ID,但只能输出音频文件。
提示词指南 (https://ai.google.dev/gemini-api/docs/speech-generation#transcript-tags)出人意料地详细。以下是他们为生成短短几句话的音频而提供的示例提示词:
``
# 音频档案:Jaz R.
## "晨间热潮"
## 场景:伦敦录音室
晚上10点,一间玻璃墙录音室俯瞰着月光下的伦敦天际线,但室内却亮得刺眼。红色的"ON AIR"录制指示灯正在闪烁。Jaz 没有坐着,而是站着,随着强劲的背景音乐节奏踮着脚跳动。他们的双手在一张巨大的调音台上飞快地滑动推子。这是一个混乱、咖啡因驱动的驾驶舱,旨在唤醒整个国家。
### 导演笔记
风格:
* "声音的微笑":你必须从音频中听到咧嘴笑的感觉。软腭始终抬起,以保持音调明亮、阳光且极具邀请感。
* 动态:高投射但不喊叫。在表达兴奋的词语上(例如"Beauuutiful morning")辅音有力、元音拉长。
节奏:以充满活力的速度说话,跟上快节奏的音乐。带有"弹跳"般的韵律。高速输出,过渡流畅——没有冷场,没有间隙。
口音:Jaz 来自伦敦布里克斯顿
### 示例背景
Jaz 是 Top 40 广播、高能量活动宣传片,或任何需要富有魅力的河口英语口音和11/10感染力的稿件的行业标准。
#### 台词
[兴奋地] 是的,录音室里氛围炸裂!你现在被牢牢锁定,伦敦此刻简直火爆了。如果你被困在地铁里,或者只是坐在那里装工作……赶紧停下来。说真的,我看见你了。
[大喊] 把音量调大!我们的项目路线图将在三、二……开始!
``
以下是我使用该示例提示词得到的结果:
您的浏览器不支持音频元素。
然后我将其修改为"Jaz 来自纽卡斯尔"以及"……需要富有魅力的纽卡斯尔口音",得到以下结果:
您的浏览器不支持音频元素。
为了比较,这里是德文郡埃克塞特的口音:
您的浏览器不支持音频元素。
我让 Gemini 3.1 Pro (https://gemini.google.com/share/dd0fba5a83c4) 即兴编写了这个用于试用的UI (https://tools.simonwillison.net/gemini-flash-tts):
![“Gemini 3.1 Flash TTS”网页应用界面的屏幕截图。顶部是一个带有掩码密码的“API Key”字段。下方是“TTS 模式”部分,下拉菜单设置为“多人(对话)”。“说话人 1 名称”设为“Joe”,“说话人 1 语音”设为“Puck (Upbeat)”。“说话人 2 名称”设为“Jane”,“说话人 2 语音”设为“Kore (Firm)”。“脚本/提示词”区域有一条提示:“提示:使用上述定义的精确说话人名称将文本格式化为脚本。”脚本文本框内容为:“TTS the following conversation between Joe and Jane:\n\nJoe: How's it going today Jane?\nJane: [yawn] Not too bad, how about you?”下方有一个蓝色“生成音频”按钮。底部显示“成功!”消息,并带有一个音频播放器(00:00 / 00:06)和“下载 WAV”链接。](https://static.simonwillison.net/static/2026/gemini-flash-tts.jpg)
相似文章
@GoogleDeepMind: Gemini 3.1 Flash TTS 是我们迄今为止可控性最强的文本转语音模型。通过新的音频标签,您可以轻松控制声…
Google DeepMind 发布了 Gemini 3.1 Flash TTS,这是一个先进的文本转语音模型,配备新的音频标签,可通过文本命令实现对语音风格、语调和速度的细粒度控制。
Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠
Google 发布了 Gemini 3.1 Flash Live,这是一款全新的高质量音频模型,专为更自然、更可靠的实时语音交互而设计,具备更低的延迟和更强的推理能力。
Gemini 音频模型升级,打造更强大的语音体验
Google 更新了 Gemini 2.5 Flash Native Audio,以提升实时语音智能体的能力,包括更精准的函数调用、更好的指令遵循能力,以及更流畅的对话上下文检索。此次更新还在 Google Translate 应用 beta 版中引入了实时语音翻译功能,可在 70 多种语言中保留语音语调。
使用 Gemini 2.5 进行高级音频对话和生成
Google 宣布 Gemini 2.5 具备先进的原生音频功能,可实现实时对话型 AI,支持自然语音生成、风格控制和 24 种以上语言的多模态理解。
Gemini 3 Flash: 为速度而生的前沿智能
Google 发布了 Gemini 3 Flash,这是一款快速、高性价比的 AI 模型,将 Pro 级别的推理能力与 Flash 级别的速度相结合,适用于编程、复杂分析和智能体工作流等任务。