Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠

Google DeepMind Blog 模型

摘要

Google 发布了 Gemini 3.1 Flash Live,这是一款全新的高质量音频模型,专为更自然、更可靠的实时语音交互而设计,具备更低的延迟和更强的推理能力。

我们最新的语音模型在精准度和延迟方面均有提升,让语音交互更加流畅、自然且精确。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 09:09

# Gemini 3.1 Flash Live:让音频 AI 更自然、更可靠 来源:https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-live/ 我们最新的语音模型提升了精准度并降低了延迟,让语音交互更加流畅、自然和精确。 Yifan Ding 代表 Gemini 团队的软件工程师 ## 总体摘要 Gemini 3.1 Flash Live 是 Google 最高质量的音频模型,专为自然、可靠的实时对话而设计。开发者可以通过 Google AI Studio 中的 Gemini Live API 访问它,企业可以将其用于客户体验。所有人都可以通过 Search Live 和 Gemini Live 体验它,现已支持超过 200 个国家/地区。 摘要由 Google AI 生成。生成式 AI 属于实验性技术。 ## 要点 - "Gemini 3.1 Flash Live" 来了,让 AI 音频听起来更自然、更可靠。 - 这款新的音频模型速度更快,更擅长理解语调,实现自然对话。 - 开发者可以用它构建语音智能体,更可靠地处理复杂任务。 - Gemini Live 和 Search Live 现在能以更多语言提供更有帮助的回复。 - 3.1 Flash Live 的所有音频都带有水印,以帮助防止错误信息的传播。 摘要由 Google AI 生成。生成式 AI 属于实验性技术。 #### 探索其他风格: Gemini 标志旁边是文字 "Gemini 3.1 Flash Live"。背景由蓝色、多彩的点组成麦克风图标 您的浏览器不支持音频元素。 收听文章 此内容由 Google AI 生成。生成式 AI 属于实验性技术 [[duration]] 分钟 今天,我们通过 Gemini 3.1 Flash Live 推进 Gemini 的实时对话能力,这是我们迄今为止最高质量的音频和语音模型。它提供下一代语音优先 AI 所需的速度和自然节奏,为开发者、企业和日常用户带来更直观的体验。 3.1 Flash Live 已在 Google 产品中可用: - 面向开发者,通过 [Gemini Live API](https://ai.google.dev/gemini-api/docs/live) 在 [Google AI Studio](http://ai.studio/live) 预览提供 - 面向企业,在 [Gemini Enterprise for Customer Experience](https://cloud.google.com/products/gemini-enterprise-for-customer-experience?e=48754805) 中提供 - 面向所有人,通过 [Search Live](https://blog.google/products-and-platforms/products/search/search-live-global-expansion) 和 [Gemini Live](https://gemini.google/overview/gemini-live/) 提供 ## 面向开发者:强大的推理和任务执行能力 我们提升了 3.1 Flash Live 的整体质量,使其更可靠,帮助开发者和企业构建能够大规模完成复杂任务的语音优先智能体。在 [ComplexFuncBench Audio](https://github.com/zai-org/ComplexFuncBench?tab=readme-ov-file) 上,这是一个捕捉多步函数调用及各种约束的基准测试,它以 90.8% 的分数领先于我们的前代模型。 ComplexFuncBench 音频柱状图 BigBenchAudio 柱状图 在 Scale AI 的 [Audio MultiChallenge](https://labs.scale.com/leaderboard/audiomc) 上,Gemini 3.1 Flash Live 在开启"思考"模式后以 36.1% 的分数领先。该基准测试专门检验复杂指令遵循和长期推理能力,同时包含真实世界音频中典型的中断和犹豫情况。 AudioMultiChallenge 柱状图 3.1 Flash Live 还改进了语调理解,以实现更自然的对话。在 [Gemini Enterprise for Customer Experience](https://cloud.google.com/products/gemini-enterprise-for-customer-experience?e=48754805) 中,它比 2.5 Flash Native Audio 更有效地识别音高和语速等声学细微差别。它还能更好地动态调整对用户表达沮丧或困惑时的回应。 3.1 Flash Live 让你构建能在嘈杂环境中处理复杂任务的语音就绪智能体。 使用 Gemini 3.1 Pro 构建的演示示例,由 Gemini 3.1 Flash Live 提供支持。 3.1 Flash Live 让你可以用语音进行 vibe coding 并快速迭代。 使用 Gemini 3.1 Pro 构建的演示示例,由 Gemini 3.1 Flash Live 提供支持。 Verizon、LiveKit 和 The Home Depot 等公司对 3.1 Flash Live 在工作流程中的表现给予了积极反馈,称赞其改进后的自然对话能力。 ## 面向所有人:更自然、更直观的交互 在 Gemini Live 和 Search Live 中,3.1 Flash Live 模型提供更有帮助、更自然的回复,无论你是询问日常快速问题还是进行更复杂的对话。 借助底层的 3.1 Flash Live 模型,Gemini Live 相比前代模型响应更快,并且能够将对话线索跟进两倍时长,在更长时间的头脑风暴中保持你的思路连贯。 3.1 Flash Live 让 Gemini Live 更快、更有帮助 3.1 Flash Live 本身支持多语言,这使得 Search Live 本周能够 [全球扩展](https://blog.google/products-and-platforms/products/search/search-live-global-expansion)。通过此次发布,全球 200 多个国家和地区的人们现在可以用自己偏好的语言与 Search 进行实时多模态对话。 在 Search Live 中使用 3.1 Flash Live 获取实时故障排除帮助 ## 体验 Gemini 3.1 Flash Live 3.1 Flash Live 生成的所有音频都带有 SynthID 水印。这种不可感知的水印直接交织在音频输出中,能够可靠地检测 AI 生成的内容,帮助防止错误信息。有关我们安全与责任方法的更多信息,请参阅 [model card](https://deepmind.google/models/model-cards/gemini-3-1-flash-live)。 从今天开始体验 3.1 Flash Live 的自然性和可靠性。我们期待看到你如何与它交互并基于它进行构建。 ## 将更多 Google 故事发送到您的收件箱。 完成。只需再一步。 查看您的收件箱以确认订阅。 您已经订阅了我们的新闻通讯。 您也可以使用 ### 相关故事

相似文章

Gemini 音频模型升级,打造更强大的语音体验

Google DeepMind Blog

Google 更新了 Gemini 2.5 Flash Native Audio,以提升实时语音智能体的能力,包括更精准的函数调用、更好的指令遵循能力,以及更流畅的对话上下文检索。此次更新还在 Google Translate 应用 beta 版中引入了实时语音翻译功能,可在 70 多种语言中保留语音语调。

Gemini 3.1 Flash TTS

Simon Willison's Blog

Google 发布了 Gemini 3.1 Flash TTS,这是一个新的文本转语音模型,可通过 Gemini API 访问,支持基于提示的高级控制,以实现详细的语音方向、口音和说话风格。该模型能够生成复杂的音频,包括多说话人对话和特定角色的语音表演。

Gemini 3.1 Flash-Lite:为大规模智能而生

Google DeepMind Blog

Google 推出 Gemini 3.1 Flash-Lite,这是一款高速、高性价比的 AI 模型,现可通过 Google AI Studio 和 Vertex API 预览使用,专为高并发开发者工作负载而设计。