Gemini Omni | I/O 2026 Keynote
摘要
Google在I/O 2026上发布Gemini Omni,一个能够从任何输入生成任何输出的新模型,结合世界知识与生成式媒体,实现对话式视频编辑和创意变形,首先推出Gemini Omni Flash。
暂无内容
查看缓存全文
缓存时间: 2026/05/22 19:03
TL;DR: Google announces Gemini Omni, a model that generates any output from any input, combining world knowledge with generative media for realistic video creation and editing via natural language.
## 从多模态到世界模型
过去一年,AI 的能力实现了飞跃。如今,我们已经拥有能够代表我们规划并采取行动的智能体,而通用人工智能(AGI)的实现也近在咫尺。去年,我们阐述了将 Gemini 的多模态能力扩展为一种世界模型的愿景——一种能够理解并模拟世界的 AI。这是实现 AGI 的关键方面,对于从构建 AI 助手到训练机器人等一切工作都至关重要。
## 推出 Gemini Omni
现在,我们正迈出下一步重大步伐。我很高兴地宣布推出 **Gemini Omni**——这是我们全新的模型,可以从**任何输入生成任何内容**。它将 Gemini 的智能与我们最优秀的生成式媒体模型相结合,实现了世界理解、多模态和编辑的全新层次。
像 Veo、Nano Banana 和 Genie 这样的模型,能够生成极其逼真的视频、图像和交互式模拟。尽管并非完美,但它们在直观物理方面已经展现出一些令人印象深刻的概念。而借助 Omni,我们取得了更大的进步。在模拟动能和重力等物理量方面,这是一个阶跃式的改变——以前的系统会觉得这些概念很难处理。
## 世界知识驱动的视频生成
Gemini 的世界知识和推理能力在 Omni 中得到了真正的体现。它能够将复杂的概念转化为高度准确的视频。例如,你可以给它一个简单的提示,比如“制作一个关于蛋白质折叠的黏土动画讲解视频”,然后得到这个:
> (黏土动画视频中的旁白):蛋白质最初是一条氨基酸链。它们折叠成 α 螺旋等模式,以及称为 β 折叠的扁平区域,形成完美的三维形状。
但最初的生成只是开始。创意过程很少是一步到位的,通常是迭代的。正如 Nano Banana 重新定义了图像编辑一样,Omni 为你提供了一种更自然的方式,通过**对话式语言来编辑视频**。
## 对话式视频编辑与创意变形
真正酷的是,你可以给它提供自己的视频——例如,这张自拍——并以一种非常有趣的方式改变现实。你可以轻松调整细节和风格,甚至添加元素,整个场景会变形,以反映你的新想法。一个简单的圆圈变成黑洞,或者夜晚散步变得栩栩如生。任何事物都可以成为创造全新现实的画布。
## 从视频到任意模态
让我们来看看 Omni 能做什么。我们从视频开始,但随着时间的推移,Omni 将能够**从任何输入生成任何输出**。这始终是我们对 Gemini 的目标,也是我们从一开始就将其构建为多模态的原因。这是一条艰难的道路,但现在的成果证明了基础的价值。
## 第一个模型:Gemini Omni Flash
今天,我们推出了 Omni 系列的第一个模型:**Gemini Omni Flash**。它现在已在我们各产品中可用,稍后你会听到更多相关信息。我们对所取得的进展感到兴奋,很快我们将能分享更多关于 **Omni Pro** 的消息。我们迫不及待地想看到你的创作。
---
Source: [Gemini Omni | I/O 2026 Keynote - YouTube](https://www.youtube.com/watch?v=QhdEJFFaig0)
相似文章
Google 的 Gemini Omni 将图像、音频和文本转化为视频——而这仅仅是个开始
Google 发布了 Gemini Omni,这是一个多模态模型系列,能够从图像、音频和文本生成视频,跨输入进行推理以产生一致的高质量输出。首个模型 Gemini Omni Flash 将在 Google I/O 上向 Gemini 应用、YouTube Shorts 和 Flow 推出。
Gemini Omni 和 Gemini 3.5 的 9 个实际演示
Google 展示了其新模型 Gemini Omni(通过对话进行视频生成和编辑)和 Gemini 3.5 Flash(用于复杂任务的智能体模型)的 9 个演示,这些演示在 Google I/O 2026 上呈现。
介绍 Gemini Omni:从任意内容生成任意内容
Google 推出 Gemini Omni,一种新的多模态 AI 模型,能够从任何输入类型处理并生成跨越文本、图像、音频和视频的内容。
Gemini | I/O 2026 Keynote
Google 在 I/O 2026 上宣布 Gemini 应用的全面重新设计(神经表现)、多模态创作模型 Gemini Omni、以及 Daily brief 和 Gemini Spark 等主动智能体功能,同时推出 macOS 版语音驱动的多文档处理能力。
Gemini Omni
Gemini Omni 是一款新的人工智能产品,可以从任何输入开始创作,首先从视频开始,正如在 Product Hunt 上所展示的。