谷歌全新的任意输入输出AI模型令人惊叹
摘要
谷歌发布了Omni,这是一个全新的生成式AI模型系列,可以将任何输入转化为任何输出,率先应用于视频创作;测试结果显示喜忧参半,但相比之前的模型有所改进。
<figure>
<img alt="一张AI生成的视频截图,展示了一只毛绒鹿在激流泛舟" data-caption="一只毛绒鹿正享受他一生中最快乐的时光。| 图片来源:Gemini / The Verge" data-portal-copyright="图片来源:Gemini / The Verge" data-has-syndication-rights="1" src="https://platform.theverge.com/wp-content/uploads/sites/2/2026/05/ai-label-19.png?quality=90&strip=all&crop=0,0,100,100" />
<figcaption>
一只毛绒鹿正享受他一生中最快乐的时光。| 图片来源:Gemini / The Verge </figcaption>
</figure>
<p class="has-drop-cap has-text-align-none">去年,我<a href="https://www.theverge.com/tech/849998/gemini-ai-stuffed-animal-commercial">利用深度伪造技术将我孩子的毛绒玩具</a>制作成视频,让它看起来像是他的毛绒鹿正在度假。</p>
<p class="has-text-align-none">这是一个实验,目的是看看我能否重现谷歌正在播放的一段Gemini广告中的场景。我从未将巴迪(Buddy)小鹿冒险的视频给我四岁的孩子看过。但这是一次发人深省的实践,让我思考了很多关于生成式AI带来的一些无害乐趣与纯粹的垃圾内容之间的区别。也许那个维恩图就是一个完美的圆圈?也许不是。但我可以肯定的是,制作逼真视频的工具已经出奇的好,所需的投入和专业知识也出奇地少。而这一趋势正在c …</p>
<p><a href="https://www.theverge.com/tech/936507/gemini-omni-hands-on-deepfake-ai-video">阅读The Verge的完整报道。</a></p>
查看缓存全文
缓存时间: 2026/05/23 11:51
# Google 全新"万物生万物"AI模型令人惊叹
去年,我利用AI技术让我孩子的毛绒玩具(https://www.theverge.com/tech/849998/gemini-ai-stuffed-animal-commercial)看起来像他的鹿玩偶正在度假。
这是我做的一个实验,想看看能否重现谷歌一则广告中展示的场景。我从未让四岁的儿子看过小鹿Buddy冒险的视频,但这次实验很有启发,让我深入思考了生成式AI的有趣用途与纯粹垃圾内容之间的区别。也许这两个概念的本质其实就是一回事?也许不是。但我可以肯定的是,制作逼真视频的工具已经出奇地好用,几乎不需要什么技巧或经验。这一趋势正随着Gemini的Omni时代到来而愈演愈烈。
Omni是一系列新型生成式模型(https://www.theverge.com/tech/933552/google-gemini-ai-omni-flash-media-video-io-2026),理论上有一天能够将任何输入——照片、视频、文字——转化为任何其他形式。但目前,它只擅长生成视频。Omni Flash是谷歌发布的首批这类模型之一,已在公司AI视频生成与编辑平台Flow上可用。如果你想,仍然可以使用之前的Veo模型,但Omni在几个方面进行了改进。
借助Omni,你可以上传一段视频,并配合文字提示作为AI生成的起点。谷歌还声称,Omni在生成视频时能融入更多的现实世界知识,从而更好地保持视频中角色的一致性。要验证这些说法是否属实,只有一个办法:让AI Buddy重出江湖,打包它那由AI生成的小行李,再次踏上冒险之旅。
结果好坏参半,令人迷惑。有些效果非常好——比我五个月前测试Veo时要一致得多,也更贴合我的提示。但即使是Omni为我生成的最佳片段,也仍然存在一些AI式的"惊吓",比如Buddy在跳伞时突然变换方向。
在另一个视频中,我给了Omni一些艺术自由。"制作一段蒙太奇,内容是Buddy收拾行李去度假,登上游轮前往热带地区。氛围应可爱有趣。Buddy在行李箱里装了个有趣的东西,之后在片段中会用到。"它让Buddy装了一罐蜂蜜;之后在片段中,它伸手去拿蜂蜜,仿佛那是一瓶防晒霜。"哦不,"角色一边说,一边把蜂蜜挤在自己的蹄子上。
说实话,这个点子不算差。但问题是,蜂蜜瓶在整个视频中不断变化:从罐子变成装水的透明挤压瓶,然后又变回装满蜂蜜的挤压瓶。而且我根本无法描述模型是如何生成视频最终帧的——就好像它只是把刚刚生成的序列里的各种元素胡乱拼凑在一起。
你可以用文字提示来建议对视频进行编辑,这一点我要给谷歌点赞:Omni在这方面的表现比我测试Veo 3时要好。但当时Veo的效果太差了——差到每次我想修改时,都觉得从头生成一个新视频要容易得多。Omni确实会采纳你的编辑意见,但结果并非总能如愿。
我让它突出Buddy在度假片段中的面部反应,结果看起来很奇怪。它还会时不时给Buddy加上鹿角,而它本来是没有鹿角的。Buddy可是个*宝宝*,谢谢。当我提示它移除一个场景中出现的鹿角时,它照做了——然后给所有其他场景都加上了鹿角。
问题是,这一切都不是免费的。生成视频需要消耗积分,根据场景长度和起始"素材"不同,消耗15到40积分不等。编辑一次需要40积分。我使用的是每月20美元的AI Pro套餐,每月包含1000积分。在生成了大约20个片段并对其中一些进行了少量编辑后,我的积分只剩145了。如果你对Omni生成的视频有特定的想法,可能需要与模型进行多次代价高昂的反复沟通,才能得到一个接近你设想的视频。
老实说,我完全没预料到自己会看到这样的效果
Omni声称的优势之一是在真实视频中添加AI生成的内容,所以这次我让Buddy歇一歇,用AI深度伪造了自己。我从一段面部表情中性的自拍视频开始,提示Omni生成我吃意大利面、坐在飞机座位上、以及在埃菲尔铁塔前咬法棍面包的视频。我真心实意地说,我完全没预料到自己会看到这样的效果。
我的深度伪造视频中也有一些AI痕迹。叉子碰到意大利面碗的声音有点过于"制造感"。飞机视频的背景中有一个女人出现了两次。但除了这些小瑕疵和一丝隐约的诡异感之外,这些视频逼真得吓人。
我给我丈夫看了吃意大利面的片段;他知道我在测试AI视频工具,但我没告诉他场景中哪些部分是AI生成的。在不知道哪些是AI生成的情况下,他相信我真的坐在摄像机前吃意大利面,并说他唯一觉得不对劲的线索是那个碗看起来很陌生。吃面的动作本身看起来足够真实,以至于能骗过我丈夫——一个在过去十年里几乎*每天*都看着真实的我的人。
我其他的深度伪造视频质量参差不齐,但都达到了"足以在社交媒体上骗人"的水平。有几个埃菲尔铁塔的片段看起来有点卡通,但其中一个是够逼真,你可能需要回看几遍才能发现是AI生成的。当AI里的我转过头,露出扎成马尾辫的头发时,*我*知道那不是真正的我。但我不确定其他人是否看得出区别,这让我感觉怪怪的。
我们绝对深陷在恐怖谷之中
说实话,这一切让我有点心力交瘁。当我测试Veo 3(https://www.theverge.com/ai-artificial-intelligence/673719/google-veo-3-ai-video-audio-sound-effects)时,其能产生的真实感让我震惊。在过去几年里,我一次又一次地震惊于制作虚假照片中的虚假人物有多么容易。我大概也应该对Omni感到震惊,我想我确实有点震惊,但新鲜感已经过去了。
生成一部AI电影杰作,并不像谷歌想让你相信的那样轻而易举。但Omni确实在一些可识别的方面改进了Veo。如果你有一个谷歌账号和一张信用卡,那么你可以拍摄一段自己坐在家里的视频,然后花极少的心思就能让它看起来像你正在飞往毛伊岛的航班上。我不认为我们正处于"奇点的山麓(https://www.theverge.com/tech/934260/google-io-ai-singularity-demis-hassabis)",但我们绝对深陷在恐怖谷之中。
*本报道中的所有图片和视频均由谷歌 Gemini 生成。*
**关注本文中的主题和作者**,即可在个性化主页推荐中查看更多类似内容,并接收邮件更新。
- Allison Johnson
相似文章
@GoogleDeepMind: 我们正在发布 Gemini Omni:这是我们迈向能够从任何内容创造任何内容的模型的第一步——从视频开始…
Google DeepMind 宣布推出 Gemini Omni,这是一种新型模型,它将 Gemini 的智能与生成式媒体系统相结合,能够从任何输入创建视频,标志着多模态人工智能的重大进步。
介绍 Gemini Omni:从任意内容生成任意内容
Google 推出 Gemini Omni,一种新的多模态 AI 模型,能够从任何输入类型处理并生成跨越文本、图像、音频和视频的内容。
Google 的 Gemini Omni 将图像、音频和文本转化为视频——而这仅仅是个开始
Google 发布了 Gemini Omni,这是一个多模态模型系列,能够从图像、音频和文本生成视频,跨输入进行推理以产生一致的高质量输出。首个模型 Gemini Omni Flash 将在 Google I/O 上向 Gemini 应用、YouTube Shorts 和 Flow 推出。
Gemini Omni
Gemini Omni 是 Google DeepMind 推出的新型 AI 模型,融合了推理与创意能力,支持多模态理解、视频编辑和内容生成,并内置安全措施和数字水印技术。
Google的Gemini Omni可生成文字极其精准的视频😳
谷歌意外曝光了原生视频生成模型Gemini Omni,可生成文字高度准确的视频,爆款演示中可见教授推导公式以及一句话视频编辑。