Google 的 Gemini Omni 将图像、音频和文本转化为视频——而这仅仅是个开始
摘要
Google 发布了 Gemini Omni,这是一个多模态模型系列,能够从图像、音频和文本生成视频,跨输入进行推理以产生一致的高质量输出。首个模型 Gemini Omni Flash 将在 Google I/O 上向 Gemini 应用、YouTube Shorts 和 Flow 推出。
Google 的 Gemini Omni 是一种新的多模态模型,能够跨文本、图像、音频和视频进行推理,通过简单的对话生成和编辑视频——从 Omni Flash 开始。
查看缓存全文
缓存时间: 2026/05/19 19:14
# Google 的 Gemini Omni 可将图像、音频和文本转化为视频——而这仅仅是个开始 | TechCrunch
来源:https://techcrunch.com/2026/05/19/googles-gemini-omni-turns-images-audio-and-text-into-video-and-thats-just-the-start/
三年前,当 Google 推出 Gemini 时(https://blog.google/innovation-and-ai/technology/ai/google-gemini-ai/#performance),目标是构建一个多模态大语言模型——一个单一的神经网络,能够对文本、图像、音频和视频进行训练,并能以这些格式中的任何一种生成内容。
在今天举行的 Google I/O 开发者大会上,该公司借助 Gemini Omni 向这一目标迈出了实质性的一步。Gemini Omni 是一个新的多模态模型系列,Google CEO 桑达尔·皮查伊表示,该系列将能够“根据任何输入创建任何内容”。
Omni 将从视频开始。用户现在可以组合图像、音频、视频和文本,而 Omni 并非简单地将这些输入拼接在一起,而是对它们进行推理以产生一致的输出。结果就是生成高质量视频,这些视频体现了对物理、文化、历史和科学的理解。
Omni 还允许用户使用纯文本指令编辑照片,而无需复杂的编辑软件,这与 Google 的 Nano Banana(https://techcrunch.com/2026/02/26/google-launches-nano-banana-2-model-with-faster-image-generation/)类似。
Google 已经有一个专门的视频模型 Veo(https://techcrunch.com/2025/10/15/google-releases-veo-3-1-adds-it-to-flow-video-editor/),它能让用户将文本和图像转化为视频,甚至指导并定制化数字分身(https://techcrunch.com/2026/04/02/google-now-lets-you-direct-avatars-through-prompts-in-its-vids-app/)。但 Google DeepMind 产品管理总监 Nicole Brichtova 表示,今天的发布不仅仅是 Veo 的更新:“这是朝着将 Gemini 的智能与我们媒体模型的渲染能力相结合的方向迈出的下一步。”
DeepMind 首席技术官 Koray Kavukcuoglu 在周一的一场媒体发布会上向记者展示的一个例子:当 Omni 收到诸如“一个关于蛋白质折叠的定格动画解说”这样简单的提示时,它会迅速渲染出一段定格动画解说视频,并配有画外音说道:“蛋白质从氨基酸链开始。它们折叠成 α 螺旋和扁平片层结构(称为 β 折叠片),形成一个完美的三维形状。”
Omni 的长期愿景更为广阔,包括让模型用于从音频生成图像,或从视频生成音频。
“当我们首次宣布 Gemini 时,它是我们第一个原生多模态的 AI 模型,”皮查伊在发布会上表示。“我们知道,在文本、代码、音频、图像和视频的组合上进行训练,会使其对世界有更深刻的理解。借助世界模型,AI 正从预测文本转向模拟现实。Gemini Omni 正是朝着这个方向迈出的下一步。”
作为本次发布的一部分,用户还可以使用自己的数字分身创建视频——OpenAI 在其现已关闭的 Sora 应用(通过 Cameos 功能)中曾推广过这一功能。据 Brichtova 介绍,为了防止深度伪造,用户需要通过专门的产品引导流程,该流程包括录制自己并大声念出一系列数字。之后,该数字分身将被存储以备将来使用。
此外,所有使用 Omni 创建的视频都将包含 Google 的 SynthID 数字水印,用户可以通过它验证视频是否由 Gemini 产品生成。
该系列的第一个模型是 Gemini Omni Flash,它将于今天在 Gemini 应用、YouTube Shorts 以及 AI 创意工作室 Flow 中推出。Flash 能够渲染 10 秒的视频,Brichtova 表示这并非模型限制,而是基于两方面考虑:既希望让更多人使用该模型,又预计目前大多数用户不会想制作更长的视频。不过,更长的视频时长功能已在近期规划中。
Google 似乎将 Omni Flash 定位于更偏向消费者的工具。Brichtova 和 DeepMind 研究工程师 Gabe Barth-Maron 在与 TechCrunch 的电话会议中提到的数字分身用途都是个人化的:制作一段自己获奖或登上月球的视频,或者从度假视频的背景中移除一个路人。
Barth-Maron 更简洁地表述道:“它们就像个性化表情包。”
“我们确实专注于让消费者易于使用,”Brichtova 说。“目前没有多少视频模型能跨越与消费者的鸿沟,这是我们在这方面的一次尝试。”
易用性伴随着一个注意事项:Brichtova 和 Barth-Maron 指出,编辑提示需要非常具体,否则 Omni 可能过度编辑或无意中改变用户想要保留的元素——这是 Nano Banana 用户可能遇到过的麻烦。
**图片来源:**Google
尽管短期专注于消费者,但 Omni 在企业和创意方面的应用(https://techcrunch.com/2026/01/13/googles-update-for-veo-3-1-lets-users-create-vertical-videos-through-reference-images/)是显而易见的,Google 将在未来几周内通过 API 提供 Omni。数字分身生成工具(该功能现已可在 Shorts 中使用)是 Google 期望内容创作者采用的工具。但更广泛地说,端到端的多模态工作流对于广告商和电影制作人来说可能具有变革意义。
初创公司 Luma AI 正在构建类似的产品,即一个基于其自身“统一”模型的智能体工具(https://techcrunch.com/2026/03/05/exclusive-luma-launches-creative-ai-agents-powered-by-its-new-unified-intelligence-models/),可以根据简短的需求说明和产品图像生成整个广告活动。
“我们实际上对模型的文本渲染能力感到非常自豪,这对于广告等场景非常有用,”Brichtova 说。“如果你需要放置产品,甚至只是一个标语,它必须准确……我们预计电影制作人和其他类型的创作者也会使用这个模型。”
更专业的用例可能更适合 Omni Pro 模型,它在所有 Omni 任务上应该表现更好。Google 尚未公布 Pro 的发布日期,但 Brichtova 表示,当“我们觉得已经到了比 Flash 有质的飞跃的时候”,就会发布 Pro。
*当您通过我们文章中的链接购买产品时,我们可能会获得少量佣金(https://techcrunch.com/techcrunch-affiliate-monetization-standards/)。这不会影响我们的编辑独立性。*
相似文章
介绍 Gemini Omni:从任意内容生成任意内容
Google 推出 Gemini Omni,一种新的多模态 AI 模型,能够从任何输入类型处理并生成跨越文本、图像、音频和视频的内容。
@GoogleDeepMind: 我们正在发布 Gemini Omni:这是我们迈向能够从任何内容创造任何内容的模型的第一步——从视频开始…
Google DeepMind 宣布推出 Gemini Omni,这是一种新型模型,它将 Gemini 的智能与生成式媒体系统相结合,能够从任何输入创建视频,标志着多模态人工智能的重大进步。
Gemini Omni 和 Gemini 3.5 的 9 个实际演示
Google 展示了其新模型 Gemini Omni(通过对话进行视频生成和编辑)和 Gemini 3.5 Flash(用于复杂任务的智能体模型)的 9 个演示,这些演示在 Google I/O 2026 上呈现。
Google的Gemini Omni可生成文字极其精准的视频😳
谷歌意外曝光了原生视频生成模型Gemini Omni,可生成文字高度准确的视频,爆款演示中可见教授推导公式以及一句话视频编辑。
Google Gemini Omni 视频模型在 I/O 大会前夕亮相(2 分钟阅读)
在 Google I/O 大会前夕,Google 的 Gemini Omni 视频模型已进入有限测试阶段。尽管其原始生成保真度落后于竞争对手,但该模型展现了强大的视频编辑能力。