Gemini 音频模型升级，打造更强大的语音体验

Google DeepMind Blog 2025/12/12 17:50 模型

google gemini voice-agents native-audio translation vertex-ai

摘要

Google 更新了 Gemini 2.5 Flash Native Audio，以提升实时语音智能体的能力，包括更精准的函数调用、更好的指令遵循能力，以及更流畅的对话上下文检索。此次更新还在 Google Translate 应用 beta 版中引入了实时语音翻译功能，可在 70 多种语言中保留语音语调。

查看原文

查看缓存全文

缓存时间: 2026/05/08 09:27

# 升级版 Gemini 音频模型，打造更强大的语音交互体验来源：https://blog.google/products-and-platforms/products/gemini/gemini-audio-model-updates/ Tara Sainath 杰出研究科学家 ## 内容概要 Google 对 Gemini 2.5 Flash Native Audio 进行了升级，以支持更出色的实时语音代理。新版本在函数调用精准度、指令遵循能力和对话流畅度方面均有提升。实时语音翻译功能现已登陆 Google 翻译应用测试版，目前正在美国、墨西哥和印度的 Android 设备上逐步推出。摘要由 Google AI 生成。生成式 AI 为实验性功能。 ## 要点速览 - "升级版 Gemini 音频模型，打造更强大的语音交互体验" 提升了实时语音代理和翻译能力 - Gemini 2.5 Flash Native Audio 的函数调用更加精准，指令遵循能力更强 - 本次更新通过检索历史对话上下文，实现了更流畅的对话体验 - Google 翻译中的实时语音翻译保留说话者语调，支持 70 余种语言 - 您现在就可以在 Vertex AI 上使用 Gemini 2.5 Flash Native Audio 开始构建语音代理摘要由 Google AI 生成。生成式 AI 为实验性功能。 ## 通俗解读 Google 让 Gemini AI 在对话中的理解和表达能力更上一层楼。它能更好地理解指令、进行更流畅的对话，并实时翻译语言。这意味着企业可以借助 AI 提升客户服务，而人们即使语言不通也能更好地沟通交流。您还可以在 Google 翻译应用中体验实时翻译功能。摘要由 Google AI 生成。生成式 AI 为实验性功能。 #### 探索其他形式： Gemini Audio 文字标识您的浏览器不支持音频元素。收听文章此内容由 Google AI 生成。生成式 AI 为实验性功能 [[duration]] 分钟本周早些时候，我们通过升级 Gemini 2.5 Pro 和 Flash 文本转语音模型，为音频生成带来了更强的可控性（https://blog.google/technology/developers/gemini-2-5-text-to-speech）。但生成富有表现力的语音只是对话的一面。今天，我们发布了升级版的 Gemini 2.5 Flash Native Audio，专为实时语音代理打造。此次更新提升了模型处理复杂工作流、解析用户指令和进行自然对话的能力。 Gemini 2.5 Flash Native Audio 现已覆盖 Google 旗下多款产品，包括 Google AI Studio（https://aistudio.google.com/prompts/new_chat?model=gemini-2.5-flash-native-audio-preview-12-2025）、Vertex AI（https://cloud.google.com/blog/products/ai-machine-learning/gemini-live-api-available-on-vertex-ai），并已开始向 Gemini Live（https://gemini.google/overview/gemini-live/）和 Search Live（https://blog.google/products/search/live-audio-gemini-model-update/）推送，首次将原生音频的自然感带入 Search Live。这意味着您可以更高效地与 Gemini 进行实时头脑风暴，在 Search Live 中获取实时帮助，或构建下一代企业级客户服务代理。除了赋能智能代理，原生音频还为全球通信解锁了全新可能。我们推出了实时语音翻译功能，支持耳机端的流式语音到语音翻译。它能保留说话者的语调、语速和音高。该测试版体验今日起在 Google 翻译应用（https://blog.google/products/search/gemini-capabilities-translation-upgrades/）中逐步上线。 ## 实时语音代理为了支持跨平台、跨产品的广泛用例，我们在以下三个关键领域对 Gemini 2.5 Native Audio 进行了改进： - **更精准的函数调用：** 我们提升了模型触发外部函数的可靠性。现在它能更准确地判断何时在对话中获取实时信息，并无缝将数据融入音频回复，不打断对话节奏。在 ComplexFuncBench Audio（https://github.com/zai-org/ComplexFuncBench?tab=readme-ov-file#citatio）评测中，该评测涵盖带有多重约束的多步骤函数调用，Gemini 2.5 Native Audio 以 71.5% 的得分领先。 - **更强的指令遵循能力：** 模型现在更擅长处理复杂指令，在内容完整性方面带来更高的用户满意度。对开发者指令的遵循率达到 90%（原为 84%），输出结果更加可靠。 - **更流畅的对话：** 我们在多轮对话质量方面取得显著提升。Gemini 2.5 Flash Native Audio 能够更有效地检索历史对话上下文，打造更连贯的对话体验。升级版 Gemini 2.5 Flash Native Audio 与旧版本及行业竞品在 ComplexFuncBench（https://github.com/zai-org/ComplexFuncBench?tab=readme-ov-file#citatio）上的性能对比升级版 Gemini 2.5 Flash Native Audio 与旧版本及行业竞品的性能对比 ### 客户评价 Google Cloud 客户（https://cloud.google.com/blog/products/ai-machine-learning/gemini-live-api-available-on-vertex-ai）已开始利用 Gemini 的原生音频能力创造实际业务价值，涵盖房贷处理到客户通话等场景。 - *"用户在使用 Sidekick 不到一分钟时往往会忘记自己在与 AI 对话，有些人甚至在长时间聊天后向机器人道谢……Gemini [2.5 Flash Native Audio] 提供的新 Live API AI 能力赋能我们的商家取得成功。"* —— David Wurtz，Shopify 产品副总裁 - *"通过集成 Gemini 2.5 Flash Native Audio 模型……自 2025 年 5 月推出以来，我们大幅增强了 Mia 的能力。这一强大组合已帮助我们为经纪合作伙伴生成超过 14,000 笔贷款。"* —— Jason Bressler，United Wholesale Mortgage (UWM) 首席技术官 - *"通过 Vertex AI 使用 Gemini 2.5 Flash Native Audio 模型，Newo.ai AI 接待员实现了无与伦比的对话智能……即使在嘈杂环境中也能识别主要说话人，对话中途切换语言，声音自然且富有情感表现力。"* —— David Yang，Newo.ai 联合创始人 ## 实时语音翻译 Gemini 现已原生支持全新的实时语音到语音翻译能力，可同时处理持续收听和双向对话两种模式。在持续收听模式下，Gemini 自动将多种语言的语音翻译成单一目标语言。您只需戴上耳机，就能用自己的语言聆听周围的世界。在双向对话模式下，Gemini 的实时语音翻译可在两种语言间实时翻译，根据说话人自动切换输出语言。例如，如果您说英语，想与说印地语的人交谈，您的耳机将实时播放英语翻译，而您说完话后，手机会向外播放印地语。 Gemini 实时语音翻译具备多项关键能力，助力真实场景应用： - **语言覆盖：** 结合 Gemini 模型的世界知识、多语言能力和原生音频能力，支持 70 余种语言和 2000 余种语言对的语音翻译 - **风格迁移：** 捕捉人类语音的细微差别，保留说话者的语调、语速和音高，让翻译听起来更自然 - **多语言输入：** 在单次会话中同时理解多种语言，助您轻松跟进多语言对话，无需频繁调整语言设置 - **自动检测：** 自动识别所说语言并开始翻译，即使您不知道对方说什么语言也能开始翻译 - **抗噪能力：** 过滤环境噪音，即使在嘈杂的户外环境中也能舒适交谈即日起，您可以在 Google 翻译应用的全新测试版中体验该功能，连接耳机后点击"实时翻译"即可在耳机中获得实时翻译（https://blog.google/products/search/gemini-capabilities-translation-upgrades/）。该体验正面向美国、墨西哥和印度的所有 Android 设备推出，iOS 版本和更多地区即将上线。我们将根据反馈持续迭代该体验，并于 2026 年将其引入更多 Google 产品，包括 Gemini API。 ## 立即开始立即使用 Gemini 2.5 Flash Native Audio 构建语音代理，该模型现已通过 Vertex AI（https://cloud.google.com/blog/products/ai-machine-learning/gemini-live-api-available-on-vertex-ai）全面上线，并可在 Gemini API（https://ai.google.dev/gemini-api/docs/live）中预览。您也可以在 Google AI Studio（https://ai.dev/prompts/new_chat?model=gemini-2.5-flash-native-audio-preview-12-2025）中体验。 Gemini 2.5 Flash 和 2.5 Pro 文本转语音模型也可通过 Google AI Studio 中的 Gemini API 使用。查看语音生成文档（https://ai.google.dev/gemini-api/docs/speech-generation）、探索提示词指南（https://ai.google.dev/gemini-api/docs/speech-generation#prompting-guide），或浏览 Gemini API Cookbook（https://github.com/google-gemini/cookbook/blob/main/quickstarts/Get_started_TTS.ipynb）开始您的创作。

Gemini 音频模型升级，打造更强大的语音体验

相似文章

Gemini 3.1 Flash Live：让音频 AI 更自然、更可靠

借助 Gemini 3.5 Live Translate 实现流畅自然的语音翻译

使用 Gemini 2.5 进行高级音频对话和生成

Google发布Gemini 3.5 Live Translate，实现即时语音到语音翻译

Gemini 3.1 Flash TTS

提交意见反馈