首页
/
模型
/
Gemini 音频模型升级,打造更强大的语音体验
Gemini 音频模型升级,打造更强大的语音体验
摘要
Google 更新了 Gemini 2.5 Flash Native Audio,以提升实时语音智能体的能力,包括更精准的函数调用、更好的指令遵循能力,以及更流畅的对话上下文检索。此次更新还在 Google Translate 应用 beta 版中引入了实时语音翻译功能,可在 70 多种语言中保留语音语调。
查看缓存全文
缓存时间:
2026/05/08 09:27
# 升级版 Gemini 音频模型,打造更强大的语音交互体验
来源:https://blog.google/products-and-platforms/products/gemini/gemini-audio-model-updates/
Tara Sainath
杰出研究科学家
## 内容概要
Google 对 Gemini 2.5 Flash Native Audio 进行了升级,以支持更出色的实时语音代理。新版本在函数调用精准度、指令遵循能力和对话流畅度方面均有提升。实时语音翻译功能现已登陆 Google 翻译应用测试版,目前正在美国、墨西哥和印度的 Android 设备上逐步推出。
摘要由 Google AI 生成。生成式 AI 为实验性功能。
## 要点速览
- "升级版 Gemini 音频模型,打造更强大的语音交互体验" 提升了实时语音代理和翻译能力
- Gemini 2.5 Flash Native Audio 的函数调用更加精准,指令遵循能力更强
- 本次更新通过检索历史对话上下文,实现了更流畅的对话体验
- Google 翻译中的实时语音翻译保留说话者语调,支持 70 余种语言
- 您现在就可以在 Vertex AI 上使用 Gemini 2.5 Flash Native Audio 开始构建语音代理
摘要由 Google AI 生成。生成式 AI 为实验性功能。
## 通俗解读
Google 让 Gemini AI 在对话中的理解和表达能力更上一层楼。它能更好地理解指令、进行更流畅的对话,并实时翻译语言。这意味着企业可以借助 AI 提升客户服务,而人们即使语言不通也能更好地沟通交流。您还可以在 Google 翻译应用中体验实时翻译功能。
摘要由 Google AI 生成。生成式 AI 为实验性功能。
#### 探索其他形式:
Gemini Audio 文字标识
您的浏览器不支持音频元素。
收听文章
此内容由 Google AI 生成。生成式 AI 为实验性功能
[[duration]] 分钟
本周早些时候,我们通过升级 Gemini 2.5 Pro 和 Flash 文本转语音模型,为音频生成带来了更强的可控性(https://blog.google/technology/developers/gemini-2-5-text-to-speech)。
但生成富有表现力的语音只是对话的一面。今天,我们发布了升级版的 Gemini 2.5 Flash Native Audio,专为实时语音代理打造。此次更新提升了模型处理复杂工作流、解析用户指令和进行自然对话的能力。
Gemini 2.5 Flash Native Audio 现已覆盖 Google 旗下多款产品,包括 Google AI Studio(https://aistudio.google.com/prompts/new_chat?model=gemini-2.5-flash-native-audio-preview-12-2025)、Vertex AI(https://cloud.google.com/blog/products/ai-machine-learning/gemini-live-api-available-on-vertex-ai),并已开始向 Gemini Live(https://gemini.google/overview/gemini-live/)和 Search Live(https://blog.google/products/search/live-audio-gemini-model-update/)推送,首次将原生音频的自然感带入 Search Live。这意味着您可以更高效地与 Gemini 进行实时头脑风暴,在 Search Live 中获取实时帮助,或构建下一代企业级客户服务代理。
除了赋能智能代理,原生音频还为全球通信解锁了全新可能。我们推出了实时语音翻译功能,支持耳机端的流式语音到语音翻译。它能保留说话者的语调、语速和音高。该测试版体验今日起在 Google 翻译应用(https://blog.google/products/search/gemini-capabilities-translation-upgrades/)中逐步上线。
## 实时语音代理
为了支持跨平台、跨产品的广泛用例,我们在以下三个关键领域对 Gemini 2.5 Native Audio 进行了改进:
- **更精准的函数调用:** 我们提升了模型触发外部函数的可靠性。现在它能更准确地判断何时在对话中获取实时信息,并无缝将数据融入音频回复,不打断对话节奏。在 ComplexFuncBench Audio(https://github.com/zai-org/ComplexFuncBench?tab=readme-ov-file#citatio)评测中,该评测涵盖带有多重约束的多步骤函数调用,Gemini 2.5 Native Audio 以 71.5% 的得分领先。
- **更强的指令遵循能力:** 模型现在更擅长处理复杂指令,在内容完整性方面带来更高的用户满意度。对开发者指令的遵循率达到 90%(原为 84%),输出结果更加可靠。
- **更流畅的对话:** 我们在多轮对话质量方面取得显著提升。Gemini 2.5 Flash Native Audio 能够更有效地检索历史对话上下文,打造更连贯的对话体验。
升级版 Gemini 2.5 Flash Native Audio 与旧版本及行业竞品在 ComplexFuncBench(https://github.com/zai-org/ComplexFuncBench?tab=readme-ov-file#citatio)上的性能对比
升级版 Gemini 2.5 Flash Native Audio 与旧版本及行业竞品的性能对比
### 客户评价
Google Cloud 客户(https://cloud.google.com/blog/products/ai-machine-learning/gemini-live-api-available-on-vertex-ai)已开始利用 Gemini 的原生音频能力创造实际业务价值,涵盖房贷处理到客户通话等场景。
- *"用户在使用 Sidekick 不到一分钟时往往会忘记自己在与 AI 对话,有些人甚至在长时间聊天后向机器人道谢……Gemini [2.5 Flash Native Audio] 提供的新 Live API AI 能力赋能我们的商家取得成功。"* —— David Wurtz,Shopify 产品副总裁
- *"通过集成 Gemini 2.5 Flash Native Audio 模型……自 2025 年 5 月推出以来,我们大幅增强了 Mia 的能力。这一强大组合已帮助我们为经纪合作伙伴生成超过 14,000 笔贷款。"* —— Jason Bressler,United Wholesale Mortgage (UWM) 首席技术官
- *"通过 Vertex AI 使用 Gemini 2.5 Flash Native Audio 模型,Newo.ai AI 接待员实现了无与伦比的对话智能……即使在嘈杂环境中也能识别主要说话人,对话中途切换语言,声音自然且富有情感表现力。"* —— David Yang,Newo.ai 联合创始人
## 实时语音翻译
Gemini 现已原生支持全新的实时语音到语音翻译能力,可同时处理持续收听和双向对话两种模式。
在持续收听模式下,Gemini 自动将多种语言的语音翻译成单一目标语言。您只需戴上耳机,就能用自己的语言聆听周围的世界。
在双向对话模式下,Gemini 的实时语音翻译可在两种语言间实时翻译,根据说话人自动切换输出语言。例如,如果您说英语,想与说印地语的人交谈,您的耳机将实时播放英语翻译,而您说完话后,手机会向外播放印地语。
Gemini 实时语音翻译具备多项关键能力,助力真实场景应用:
- **语言覆盖:** 结合 Gemini 模型的世界知识、多语言能力和原生音频能力,支持 70 余种语言和 2000 余种语言对的语音翻译
- **风格迁移:** 捕捉人类语音的细微差别,保留说话者的语调、语速和音高,让翻译听起来更自然
- **多语言输入:** 在单次会话中同时理解多种语言,助您轻松跟进多语言对话,无需频繁调整语言设置
- **自动检测:** 自动识别所说语言并开始翻译,即使您不知道对方说什么语言也能开始翻译
- **抗噪能力:** 过滤环境噪音,即使在嘈杂的户外环境中也能舒适交谈
即日起,您可以在 Google 翻译应用的全新测试版中体验该功能,连接耳机后点击"实时翻译"即可在耳机中获得实时翻译(https://blog.google/products/search/gemini-capabilities-translation-upgrades/)。该体验正面向美国、墨西哥和印度的所有 Android 设备推出,iOS 版本和更多地区即将上线。
我们将根据反馈持续迭代该体验,并于 2026 年将其引入更多 Google 产品,包括 Gemini API。
## 立即开始
立即使用 Gemini 2.5 Flash Native Audio 构建语音代理,该模型现已通过 Vertex AI(https://cloud.google.com/blog/products/ai-machine-learning/gemini-live-api-available-on-vertex-ai)全面上线,并可在 Gemini API(https://ai.google.dev/gemini-api/docs/live)中预览。您也可以在 Google AI Studio(https://ai.dev/prompts/new_chat?model=gemini-2.5-flash-native-audio-preview-12-2025)中体验。
Gemini 2.5 Flash 和 2.5 Pro 文本转语音模型也可通过 Google AI Studio 中的 Gemini API 使用。查看语音生成文档(https://ai.google.dev/gemini-api/docs/speech-generation)、探索提示词指南(https://ai.google.dev/gemini-api/docs/speech-generation#prompting-guide),或浏览 Gemini API Cookbook(https://github.com/google-gemini/cookbook/blob/main/quickstarts/Get_started_TTS.ipynb)开始您的创作。
相似文章
Google DeepMind Blog
Google 发布了 Gemini 3.1 Flash Live,这是一款全新的高质量音频模型,专为更自然、更可靠的实时语音交互而设计,具备更低的延迟和更强的推理能力。
Google DeepMind Blog
Google 发布了 Gemini 3.5 Live Translate,这是一款音频模型,支持超过 70 种语言的近乎实时的语音到语音翻译,并保留说话者的语调和节奏。该功能正在 Google 产品中逐步推出,包括 Gemini Live API、Google Meet 和 Google Translate。
Google DeepMind Blog
Google 宣布 Gemini 2.5 具备先进的原生音频功能,可实现实时对话型 AI,支持自然语音生成、风格控制和 24 种以上语言的多模态理解。
Ars Technica
Google发布Gemini 3.5 Live Translate,这是一种语音到语音模型,可在70多种语言中提供即时语音翻译,并正在Google生态系统中推广。
Simon Willison's Blog
Google 发布了 Gemini 3.1 Flash TTS,这是一个新的文本转语音模型,可通过 Gemini API 访问,支持基于提示的高级控制,以实现详细的语音方向、口音和说话风格。该模型能够生成复杂的音频,包括多说话人对话和特定角色的语音表演。