Gemini 3.1 Flash TTS

Simon Willison's Blog 2026/04/15 17:13 模型

摘要

Google 发布了 Gemini 3.1 Flash TTS，这是一个新的文本转语音模型，可通过 Gemini API 访问，支持基于提示的高级控制，以实现详细的语音方向、口音和说话风格。该模型能够生成复杂的音频，包括多说话人对话和特定角色的语音表演。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:27

# Gemini 3.1 Flash TTS 来源：https://simonwillison.net/2026/Apr/15/gemini-31-flash-tts/ 2026年4月15日 \- 链接博客 **Gemini 3\.1 Flash TTS (https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/)**。谷歌今天发布了 Gemini 3.1 Flash TTS，这是一个全新的文本转语音模型，可以通过提示词来指导输出。该模型通过标准 Gemini API 提供，使用`gemini\-3\.1\-flash\-tts\-preview`作为模型 ID，但只能输出音频文件。提示词指南 (https://ai.google.dev/gemini-api/docs/speech-generation#transcript-tags)出人意料地详细。以下是他们为生成短短几句话的音频而提供的示例提示词： `` # 音频档案：Jaz R. ## "晨间热潮" ## 场景：伦敦录音室晚上10点，一间玻璃墙录音室俯瞰着月光下的伦敦天际线，但室内却亮得刺眼。红色的"ON AIR"录制指示灯正在闪烁。Jaz 没有坐着，而是站着，随着强劲的背景音乐节奏踮着脚跳动。他们的双手在一张巨大的调音台上飞快地滑动推子。这是一个混乱、咖啡因驱动的驾驶舱，旨在唤醒整个国家。 ### 导演笔记风格： * "声音的微笑"：你必须从音频中听到咧嘴笑的感觉。软腭始终抬起，以保持音调明亮、阳光且极具邀请感。 * 动态：高投射但不喊叫。在表达兴奋的词语上（例如"Beauuutiful morning"）辅音有力、元音拉长。节奏：以充满活力的速度说话，跟上快节奏的音乐。带有"弹跳"般的韵律。高速输出，过渡流畅——没有冷场，没有间隙。口音：Jaz 来自伦敦布里克斯顿 ### 示例背景 Jaz 是 Top 40 广播、高能量活动宣传片，或任何需要富有魅力的河口英语口音和11/10感染力的稿件的行业标准。 #### 台词 [兴奋地] 是的，录音室里氛围炸裂！你现在被牢牢锁定，伦敦此刻简直火爆了。如果你被困在地铁里，或者只是坐在那里装工作……赶紧停下来。说真的，我看见你了。 [大喊] 把音量调大！我们的项目路线图将在三、二……开始！ `` 以下是我使用该示例提示词得到的结果：您的浏览器不支持音频元素。然后我将其修改为"Jaz 来自纽卡斯尔"以及"……需要富有魅力的纽卡斯尔口音"，得到以下结果：您的浏览器不支持音频元素。为了比较，这里是德文郡埃克塞特的口音：您的浏览器不支持音频元素。我让 Gemini 3.1 Pro (https://gemini.google.com/share/dd0fba5a83c4) 即兴编写了这个用于试用的UI (https://tools.simonwillison.net/gemini-flash-tts)： ![“Gemini 3.1 Flash TTS”网页应用界面的屏幕截图。顶部是一个带有掩码密码的“API Key”字段。下方是“TTS 模式”部分，下拉菜单设置为“多人（对话）”。“说话人 1 名称”设为“Joe”，“说话人 1 语音”设为“Puck (Upbeat)”。“说话人 2 名称”设为“Jane”，“说话人 2 语音”设为“Kore (Firm)”。“脚本/提示词”区域有一条提示：“提示：使用上述定义的精确说话人名称将文本格式化为脚本。”脚本文本框内容为：“TTS the following conversation between Joe and Jane:\n\nJoe: How's it going today Jane?\nJane: [yawn] Not too bad, how about you?”下方有一个蓝色“生成音频”按钮。底部显示“成功！”消息，并带有一个音频播放器（00:00 / 00:06）和“下载 WAV”链接。](https://static.simonwillison.net/static/2026/gemini-flash-tts.jpg)

Gemini 3.1 Flash TTS

相似文章

@GoogleDeepMind: Gemini 3.1 Flash TTS 是我们迄今为止可控性最强的文本转语音模型。通过新的音频标签，您可以轻松控制声…

Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

Gemini 音频模型升级，打造更强大的语音体验

借助 Gemini 3.5 Live Translate 实现流畅自然的语音翻译

Gemini 3.5 Live Translate

提交意见反馈