使用 Gemini 2.5 进行高级音频对话和生成

Google DeepMind Blog 2025/06/03 17:15 模型

摘要

Google 宣布 Gemini 2.5 具备先进的原生音频功能，可实现实时对话型 AI，支持自然语音生成、风格控制和 24 种以上语言的多模态理解。

Gemini 2.5 在 AI 驱动的音频对话和生成方面具备新功能。

查看缓存全文

缓存时间: 2026/04/20 08:35

# 使用 Gemini 2.5 实现高级音频对话和生成来源：https://blog.google/innovation-and-ai/models-and-research/google-deepmind/gemini-2-5-native-audio/ 以下是 Gemini 2.5 在音频对话和生成方面新功能的详细介绍。 Tara Sainath 杰出研究科学家抱歉，您的浏览器不支持嵌入式视频，但别担心，您可以[下载](https://storage.googleapis.com/gweb-uniblog-publish-prod/original_videos/capability__native-audio_16-9.mp4)并使用您喜欢的视频播放器观看！ Gemini 从一开始就被设计为多模态的，能够原生地理解和生成跨越文本、图像、音频、视频和代码的内容。在 I/O 大会上，我们展示了 Gemini 2.5 如何在 AI 驱动的音频对话和生成功能方面实现了重大进步。我们已经在使用这些模型为全球用户提供音频功能，涉及众多产品、原型和语言。[NotebookLM 的音频概览](https://blog.google/technology/google-labs/notebooklm-audio-overviews-50-languages/)和 [Project Astra](https://deepmind.google/models/project-astra/) 只是两个例子。以下是您可以用 Gemini 2.5 原生音频功能实现的功能的详细介绍。 ## 实时音频对话人类对话是丰富和微妙的，意义不仅仅通过*说什么*来表达，还通过*如何说*来表达——通过语调、口音，甚至非言语的发声，如笑声。我们相信对话将成为我们与 AI 交互的关键方式。这就是为什么 Gemini 在音频中原生地推理和生成语音，实现了有效的实时通信。 Gemini 2.5 Flash 预览版的原生音频对话功能包括： - **自然对话：** 声音交互质量显著，表现力更恰当，具有自然的节奏模式，延迟极低，让您能够流畅地交谈。 - **风格控制：** 使用自然语言提示，您可以在对话中调整传递方式，引导它采用特定的口音、产生一系列的语调和表达，甚至可以低声说话。 - **工具集成：** Gemini 2.5 可以在对话期间使用工具和函数调用。这允许它从 Google 搜索等来源整合实时信息，或使用开发者构建的自定义工具，使对话更实用。 - **对话上下文感知（主动音频）：** 我们的系统经过训练可以识别并忽略背景言语、周围对话和其他无关音频，在适当时做出响应。基本上，它理解*何时不应该*说话。 - **音频-视频理解：** 通过对流媒体音频和视频的原生支持，Gemini 2.5 可以与您讨论它在视频源或屏幕共享中看到的内容。 - **多语言支持：** 可以用我们[支持的 24+ 种语言](https://ai.google.dev/gemini-api/docs/speech-generation#languages)进行对话，甚至可以轻松地在同一句话中混合语言。 - **情感对话：** Gemini 2.5 会根据用户的语调做出响应，认识到相同的话以不同方式说出会导致非常不同的对话。 - **高级推理对话：** Gemini 的推理能力可以增强其对话，在所有功能上实现更好的整体性能。这导致更连贯和智能的交互，特别是对于复杂的推理任务。 ## 可控文本转语音（TTS）文本转语音技术的发展迅速，通过我们的最新模型，我们正在超越自然性，提供对生成音频前所未有的控制。现在您可以生成从短片段到长篇叙述的任何内容，精确地指定风格、语调、情感表达和表现——所有这些都可以通过自然语言提示来控制。其他控制和功能包括： - **动态表现：** 这些模型可以为从诗歌到新闻播报再到引人入胜的故事讲述的任何内容带来富有表现力的朗读。它们也可以以特定的情感表现，并在请求时产生口音。 - **增强的节奏和发音控制：** 控制发音速度，确保更准确的发音，包括特定单词的发音。 - **多人角色对话生成：** 该模型可以从文本输入生成两人"[NotebookLM 风格](https://blog.google/technology/ai/notebooklm-audio-overviews/)"的音频概览，通过对话使内容更具吸引力。 - **多语言支持：** 使用 Gemini 2.5 轻松创建多语言音频内容，提供 24+ 种语言的相同支持。对于可控语音生成（TTS），请为复杂提示的最先进质量选择 Gemini 2.5 Pro 预览版，或为具有成本效益的日常应用选择 Gemini 2.5 Flash 预览版。这允许开发者为公告、故事、播客、视频游戏等动态创建音频。 ## 安全性和责任我们在这些原生音频功能开发过程的每个阶段都主动评估了潜在风险，利用我们学到的知识来指导我们的缓解策略。我们通过严格的内部和外部安全评估来验证这些措施，包括全面的[红队测试](https://blog.google/technology/safety-security/googles-ai-red-team-the-ethical-hackers-making-ai-safer/)，确保负责任的部署。此外，我们模型的所有音频输出都嵌入了 [SynthID](https://deepmind.google/science/synthid)（我们的水印技术），确保透明度，使 AI 生成的音频可识别。 ## 为开发者提供的原生音频功能我们正在为 Gemini 2.5 模型提供原生音频输出，通过 Gemini API 在 [Google AI Studio](http://aistudio.google.com/) 或 [Vertex AI](https://console.cloud.google.com/freetrial?redirectPath=/vertex-ai/studio) 中为开发者提供新功能，用于构建更丰富、更具交互性的应用程序。要开始探索，开发者可以在 Google AI Studio 的[流](https://aistudio.google.com/live)选项卡中尝试 Gemini 2.5 Flash 预览版的原生音频对话。可控语音生成（TTS）可作为 Gemini 2.5 Pro 和 Flash 的预览版提供，只需在 Google AI Studio 中的[生成媒体](http://aistudio.google.com/generate-speech)选项卡中选择语音生成即可。

使用 Gemini 2.5 进行高级音频对话和生成

相似文章

Gemini 音频模型升级，打造更强大的语音体验

Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

推出 Gemini 2.0：我们为智能体时代打造的新型 AI 模型

Gemini 3.1 Flash TTS

Gemini 2.0 现已向所有人开放

提交意见反馈