Gemini Omni | I/O 2026 Keynote

YouTube AI Channels 模型

gemini-omni multimodal world-model video-generation google io-2026

摘要

Google在I/O 2026上发布Gemini Omni，一个能够从任何输入生成任何输出的新模型，结合世界知识与生成式媒体，实现对话式视频编辑和创意变形，首先推出Gemini Omni Flash。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/22 19:03

TL;DR: Google announces Gemini Omni, a model that generates any output from any input, combining world knowledge with generative media for realistic video creation and editing via natural language. ## 从多模态到世界模型过去一年，AI 的能力实现了飞跃。如今，我们已经拥有能够代表我们规划并采取行动的智能体，而通用人工智能（AGI）的实现也近在咫尺。去年，我们阐述了将 Gemini 的多模态能力扩展为一种世界模型的愿景——一种能够理解并模拟世界的 AI。这是实现 AGI 的关键方面，对于从构建 AI 助手到训练机器人等一切工作都至关重要。 ## 推出 Gemini Omni 现在，我们正迈出下一步重大步伐。我很高兴地宣布推出 **Gemini Omni**——这是我们全新的模型，可以从**任何输入生成任何内容**。它将 Gemini 的智能与我们最优秀的生成式媒体模型相结合，实现了世界理解、多模态和编辑的全新层次。像 Veo、Nano Banana 和 Genie 这样的模型，能够生成极其逼真的视频、图像和交互式模拟。尽管并非完美，但它们在直观物理方面已经展现出一些令人印象深刻的概念。而借助 Omni，我们取得了更大的进步。在模拟动能和重力等物理量方面，这是一个阶跃式的改变——以前的系统会觉得这些概念很难处理。 ## 世界知识驱动的视频生成 Gemini 的世界知识和推理能力在 Omni 中得到了真正的体现。它能够将复杂的概念转化为高度准确的视频。例如，你可以给它一个简单的提示，比如“制作一个关于蛋白质折叠的黏土动画讲解视频”，然后得到这个： > （黏土动画视频中的旁白）：蛋白质最初是一条氨基酸链。它们折叠成 α 螺旋等模式，以及称为 β 折叠的扁平区域，形成完美的三维形状。但最初的生成只是开始。创意过程很少是一步到位的，通常是迭代的。正如 Nano Banana 重新定义了图像编辑一样，Omni 为你提供了一种更自然的方式，通过**对话式语言来编辑视频**。 ## 对话式视频编辑与创意变形真正酷的是，你可以给它提供自己的视频——例如，这张自拍——并以一种非常有趣的方式改变现实。你可以轻松调整细节和风格，甚至添加元素，整个场景会变形，以反映你的新想法。一个简单的圆圈变成黑洞，或者夜晚散步变得栩栩如生。任何事物都可以成为创造全新现实的画布。 ## 从视频到任意模态让我们来看看 Omni 能做什么。我们从视频开始，但随着时间的推移，Omni 将能够**从任何输入生成任何输出**。这始终是我们对 Gemini 的目标，也是我们从一开始就将其构建为多模态的原因。这是一条艰难的道路，但现在的成果证明了基础的价值。 ## 第一个模型：Gemini Omni Flash 今天，我们推出了 Omni 系列的第一个模型：**Gemini Omni Flash**。它现在已在我们各产品中可用，稍后你会听到更多相关信息。我们对所取得的进展感到兴奋，很快我们将能分享更多关于 **Omni Pro** 的消息。我们迫不及待地想看到你的创作。 --- Source: [Gemini Omni | I/O 2026 Keynote - YouTube](https://www.youtube.com/watch?v=QhdEJFFaig0)

Gemini Omni | I/O 2026 Keynote

相似文章

Google 的 Gemini Omni 将图像、音频和文本转化为视频——而这仅仅是个开始

Gemini Omni 和 Gemini 3.5 的 9 个实际演示

介绍 Gemini Omni：从任意内容生成任意内容

Gemini | I/O 2026 Keynote

Gemini Omni

提交意见反馈