使用 Gemini 2.5 进行高级音频对话和生成

Google DeepMind Blog 模型

摘要

Google 宣布 Gemini 2.5 具备先进的原生音频功能,可实现实时对话型 AI,支持自然语音生成、风格控制和 24 种以上语言的多模态理解。

Gemini 2.5 在 AI 驱动的音频对话和生成方面具备新功能。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:35

# 使用 Gemini 2.5 实现高级音频对话和生成 来源:https://blog.google/innovation-and-ai/models-and-research/google-deepmind/gemini-2-5-native-audio/ 以下是 Gemini 2.5 在音频对话和生成方面新功能的详细介绍。 Tara Sainath 杰出研究科学家 抱歉,您的浏览器不支持嵌入式视频,但别担心,您可以[下载](https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/capability__native-audio_16-9.mp4)并使用您喜欢的视频播放器观看! Gemini 从一开始就被设计为多模态的,能够原生地理解和生成跨越文本、图像、音频、视频和代码的内容。在 I/O 大会上,我们展示了 Gemini 2.5 如何在 AI 驱动的音频对话和生成功能方面实现了重大进步。 我们已经在使用这些模型为全球用户提供音频功能,涉及众多产品、原型和语言。[NotebookLM 的音频概览](https://blog.google/technology/google-labs/notebooklm-audio-overviews-50-languages/)和 [Project Astra](https://deepmind.google/models/project-astra/) 只是两个例子。以下是您可以用 Gemini 2.5 原生音频功能实现的功能的详细介绍。 ## 实时音频对话 人类对话是丰富和微妙的,意义不仅仅通过*说什么*来表达,还通过*如何说*来表达——通过语调、口音,甚至非言语的发声,如笑声。我们相信对话将成为我们与 AI 交互的关键方式。这就是为什么 Gemini 在音频中原生地推理和生成语音,实现了有效的实时通信。 Gemini 2.5 Flash 预览版的原生音频对话功能包括: - **自然对话:** 声音交互质量显著,表现力更恰当,具有自然的节奏模式,延迟极低,让您能够流畅地交谈。 - **风格控制:** 使用自然语言提示,您可以在对话中调整传递方式,引导它采用特定的口音、产生一系列的语调和表达,甚至可以低声说话。 - **工具集成:** Gemini 2.5 可以在对话期间使用工具和函数调用。这允许它从 Google 搜索等来源整合实时信息,或使用开发者构建的自定义工具,使对话更实用。 - **对话上下文感知(主动音频):** 我们的系统经过训练可以识别并忽略背景言语、周围对话和其他无关音频,在适当时做出响应。基本上,它理解*何时不应该*说话。 - **音频-视频理解:** 通过对流媒体音频和视频的原生支持,Gemini 2.5 可以与您讨论它在视频源或屏幕共享中看到的内容。 - **多语言支持:** 可以用我们[支持的 24+ 种语言](https://ai.google.dev/gemini-api/docs/speech-generation#languages)进行对话,甚至可以轻松地在同一句话中混合语言。 - **情感对话:** Gemini 2.5 会根据用户的语调做出响应,认识到相同的话以不同方式说出会导致非常不同的对话。 - **高级推理对话:** Gemini 的推理能力可以增强其对话,在所有功能上实现更好的整体性能。这导致更连贯和智能的交互,特别是对于复杂的推理任务。 ## 可控文本转语音(TTS) 文本转语音技术的发展迅速,通过我们的最新模型,我们正在超越自然性,提供对生成音频前所未有的控制。现在您可以生成从短片段到长篇叙述的任何内容,精确地指定风格、语调、情感表达和表现——所有这些都可以通过自然语言提示来控制。 其他控制和功能包括: - **动态表现:** 这些模型可以为从诗歌到新闻播报再到引人入胜的故事讲述的任何内容带来富有表现力的朗读。它们也可以以特定的情感表现,并在请求时产生口音。 - **增强的节奏和发音控制:** 控制发音速度,确保更准确的发音,包括特定单词的发音。 - **多人角色对话生成:** 该模型可以从文本输入生成两人"[NotebookLM 风格](https://blog.google/technology/ai/notebooklm-audio-overviews/)"的音频概览,通过对话使内容更具吸引力。 - **多语言支持:** 使用 Gemini 2.5 轻松创建多语言音频内容,提供 24+ 种语言的相同支持。 对于可控语音生成(TTS),请为复杂提示的最先进质量选择 Gemini 2.5 Pro 预览版,或为具有成本效益的日常应用选择 Gemini 2.5 Flash 预览版。这允许开发者为公告、故事、播客、视频游戏等动态创建音频。 ## 安全性和责任 我们在这些原生音频功能开发过程的每个阶段都主动评估了潜在风险,利用我们学到的知识来指导我们的缓解策略。我们通过严格的内部和外部安全评估来验证这些措施,包括全面的[红队测试](https://blog.google/technology/safety-security/googles-ai-red-team-the-ethical-hackers-making-ai-safer/),确保负责任的部署。此外,我们模型的所有音频输出都嵌入了 [SynthID](https://deepmind.google/science/synthid)(我们的水印技术),确保透明度,使 AI 生成的音频可识别。 ## 为开发者提供的原生音频功能 我们正在为 Gemini 2.5 模型提供原生音频输出,通过 Gemini API 在 [Google AI Studio](http://aistudio.google.com/) 或 [Vertex AI](https://console.cloud.google.com/freetrial?redirectPath=/vertex-ai/studio) 中为开发者提供新功能,用于构建更丰富、更具交互性的应用程序。 要开始探索,开发者可以在 Google AI Studio 的[流](https://aistudio.google.com/live)选项卡中尝试 Gemini 2.5 Flash 预览版的原生音频对话。可控语音生成(TTS)可作为 Gemini 2.5 Pro 和 Flash 的预览版提供,只需在 Google AI Studio 中的[生成媒体](http://aistudio.google.com/generate-speech)选项卡中选择语音生成即可。

相似文章

Gemini 音频模型升级,打造更强大的语音体验

Google DeepMind Blog

Google 更新了 Gemini 2.5 Flash Native Audio,以提升实时语音智能体的能力,包括更精准的函数调用、更好的指令遵循能力,以及更流畅的对话上下文检索。此次更新还在 Google Translate 应用 beta 版中引入了实时语音翻译功能,可在 70 多种语言中保留语音语调。

推出 Gemini 2.0:我们为智能体时代打造的新型 AI 模型

Google DeepMind Blog

Google DeepMind 推出 Gemini 2.0,这是一款新型智能体 AI 模型,具备原生图像和音频输出、增强的工具使用能力和多模态功能,专为下一代 AI 智能体设计。Gemini 2.0 Flash 现已向开发者推出,计划于 2025 年初实现更广泛的可用性。

Gemini 3.1 Flash TTS

Simon Willison's Blog

Google 发布了 Gemini 3.1 Flash TTS,这是一个新的文本转语音模型,可通过 Gemini API 访问,支持基于提示的高级控制,以实现详细的语音方向、口音和说话风格。该模型能够生成复杂的音频,包括多说话人对话和特定角色的语音表演。

Gemini 2.0 现已向所有人开放

Google DeepMind Blog

Google 宣布通过 API 正式推出 Gemini 2.0 Flash,并推出实验性的 Gemini 2.0 Pro(用于高级编码和推理任务),以及成本高效的 Gemini 2.0 Flash-Lite。所有模型都支持多模态输入和文本输出,并可通过 Google AI Studio、Vertex AI 和 Gemini 应用访问。