@_philschmid: 语音生成的体验提升！现在你可以从Gemini TTS流式传输音频，无需等待。构建语音助手…

X AI KOLs Following 2026/06/17 14:11 产品

gemini text-to-speech streaming voice-assistant audio-generation google quality-of-life

摘要

Google的Gemini TTS现在支持流式音频生成，开发者可以构建即时响应的语音应用，无需等待完整音频输出。

语音生成的体验提升！现在你可以从Gemini TTS流式传输音频，按需生成。无需等待。构建即时说话的语音助手、叙述工具和对话式应用。设置 `stream: true` 并接收音频块。https://t.co/lxzG7e1cam

查看原文

查看缓存全文

缓存时间: 2026/06/17 17:57

语音生成体验升级！现在您可以在 Gemini TTS 生成音频的同时进行流式传输，无需等待。立即构建可即时说话的语音助手、解说工具和对话式应用。

设置 stream: true 即可接收数据块。https://t.co/lxzG7e1cam

相似文章

使用 Gemini 2.5 进行高级音频对话和生成

Google DeepMind Blog

Google 宣布 Gemini 2.5 具备先进的原生音频功能，可实现实时对话型 AI，支持自然语音生成、风格控制和 24 种以上语言的多模态理解。

Gemini 3.1 Flash TTS

Simon Willison's Blog

Google 发布了 Gemini 3.1 Flash TTS，这是一个新的文本转语音模型，可通过 Gemini API 访问，支持基于提示的高级控制，以实现详细的语音方向、口音和说话风格。该模型能够生成复杂的音频，包括多说话人对话和特定角色的语音表演。

@googleaidevs：我们见到了 Gemini TTS 的一些惊艳用例，以下是其中几个

X AI KOLs Following

Google AI 开发者展示了 Gemini TTS 在真实世界中的多项亮眼应用。

Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

Google DeepMind Blog

Google 发布了 Gemini 3.1 Flash Live，这是一款全新的高质量音频模型，专为更自然、更可靠的实时语音交互而设计，具备更低的延迟和更强的推理能力。

Gemini 音频模型升级，打造更强大的语音体验

Google DeepMind Blog

Google 更新了 Gemini 2.5 Flash Native Audio，以提升实时语音智能体的能力，包括更精准的函数调用、更好的指令遵循能力，以及更流畅的对话上下文检索。此次更新还在 Google Translate 应用 beta 版中引入了实时语音翻译功能，可在 70 多种语言中保留语音语调。

相似文章

使用 Gemini 2.5 进行高级音频对话和生成

Gemini 3.1 Flash TTS

@googleaidevs：我们见到了 Gemini TTS 的一些惊艳用例，以下是其中几个

Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

Gemini 音频模型升级，打造更强大的语音体验

提交意见反馈