@_philschmid: 语音生成的体验提升!现在你可以从Gemini TTS流式传输音频,无需等待。构建语音助手…

X AI KOLs Following 产品

摘要

Google的Gemini TTS现在支持流式音频生成,开发者可以构建即时响应的语音应用,无需等待完整音频输出。

语音生成的体验提升!现在你可以从Gemini TTS流式传输音频,按需生成。无需等待。构建即时说话的语音助手、叙述工具和对话式应用。 设置 `stream: true` 并接收音频块。https://t.co/lxzG7e1cam
查看原文
查看缓存全文

缓存时间: 2026/06/17 17:57

语音生成体验升级!现在您可以在 Gemini TTS 生成音频的同时进行流式传输,无需等待。立即构建可即时说话的语音助手、解说工具和对话式应用。

设置 stream: true 即可接收数据块。https://t.co/lxzG7e1cam

相似文章

Gemini 3.1 Flash TTS

Simon Willison's Blog

Google 发布了 Gemini 3.1 Flash TTS,这是一个新的文本转语音模型,可通过 Gemini API 访问,支持基于提示的高级控制,以实现详细的语音方向、口音和说话风格。该模型能够生成复杂的音频,包括多说话人对话和特定角色的语音表演。

Gemini 音频模型升级,打造更强大的语音体验

Google DeepMind Blog

Google 更新了 Gemini 2.5 Flash Native Audio,以提升实时语音智能体的能力,包括更精准的函数调用、更好的指令遵循能力,以及更流畅的对话上下文检索。此次更新还在 Google Translate 应用 beta 版中引入了实时语音翻译功能,可在 70 多种语言中保留语音语调。