谷歌全新的任意输入输出AI模型令人惊叹

The Verge 2026/05/23 11:00 模型

google gemini-omni video-generation ai-model generative-ai deepfake

摘要

谷歌发布了Omni，这是一个全新的生成式AI模型系列，可以将任何输入转化为任何输出，率先应用于视频创作；测试结果显示喜忧参半，但相比之前的模型有所改进。

<figure> <img alt="一张AI生成的视频截图，展示了一只毛绒鹿在激流泛舟" data-caption="一只毛绒鹿正享受他一生中最快乐的时光。| 图片来源：Gemini / The Verge" data-portal-copyright="图片来源：Gemini / The Verge" data-has-syndication-rights="1" src="https://platform.theverge.com/wp-content/uploads/sites/2/2026/05/ai-label-19.png?quality=90&strip=all&crop=0,0,100,100" /> <figcaption> 一只毛绒鹿正享受他一生中最快乐的时光。| 图片来源：Gemini / The Verge </figcaption> </figure> 去年，我<a href="https://www.theverge.com/tech/849998/gemini-ai-stuffed-animal-commercial">利用深度伪造技术将我孩子的毛绒玩具</a>制作成视频，让它看起来像是他的毛绒鹿正在度假。 这是一个实验，目的是看看我能否重现谷歌正在播放的一段Gemini广告中的场景。我从未将巴迪（Buddy）小鹿冒险的视频给我四岁的孩子看过。但这是一次发人深省的实践，让我思考了很多关于生成式AI带来的一些无害乐趣与纯粹的垃圾内容之间的区别。也许那个维恩图就是一个完美的圆圈？也许不是。但我可以肯定的是，制作逼真视频的工具已经出奇的好，所需的投入和专业知识也出奇地少。而这一趋势正在c … <a href="https://www.theverge.com/tech/936507/gemini-omni-hands-on-deepfake-ai-video">阅读The Verge的完整报道。</a>

查看原文

查看缓存全文

缓存时间: 2026/05/23 11:51

# Google 全新"万物生万物"AI模型令人惊叹去年，我利用AI技术让我孩子的毛绒玩具（https://www.theverge.com/tech/849998/gemini-ai-stuffed-animal-commercial）看起来像他的鹿玩偶正在度假。这是我做的一个实验，想看看能否重现谷歌一则广告中展示的场景。我从未让四岁的儿子看过小鹿Buddy冒险的视频，但这次实验很有启发，让我深入思考了生成式AI的有趣用途与纯粹垃圾内容之间的区别。也许这两个概念的本质其实就是一回事？也许不是。但我可以肯定的是，制作逼真视频的工具已经出奇地好用，几乎不需要什么技巧或经验。这一趋势正随着Gemini的Omni时代到来而愈演愈烈。 Omni是一系列新型生成式模型（https://www.theverge.com/tech/933552/google-gemini-ai-omni-flash-media-video-io-2026），理论上有一天能够将任何输入——照片、视频、文字——转化为任何其他形式。但目前，它只擅长生成视频。Omni Flash是谷歌发布的首批这类模型之一，已在公司AI视频生成与编辑平台Flow上可用。如果你想，仍然可以使用之前的Veo模型，但Omni在几个方面进行了改进。借助Omni，你可以上传一段视频，并配合文字提示作为AI生成的起点。谷歌还声称，Omni在生成视频时能融入更多的现实世界知识，从而更好地保持视频中角色的一致性。要验证这些说法是否属实，只有一个办法：让AI Buddy重出江湖，打包它那由AI生成的小行李，再次踏上冒险之旅。结果好坏参半，令人迷惑。有些效果非常好——比我五个月前测试Veo时要一致得多，也更贴合我的提示。但即使是Omni为我生成的最佳片段，也仍然存在一些AI式的"惊吓"，比如Buddy在跳伞时突然变换方向。在另一个视频中，我给了Omni一些艺术自由。"制作一段蒙太奇，内容是Buddy收拾行李去度假，登上游轮前往热带地区。氛围应可爱有趣。Buddy在行李箱里装了个有趣的东西，之后在片段中会用到。"它让Buddy装了一罐蜂蜜；之后在片段中，它伸手去拿蜂蜜，仿佛那是一瓶防晒霜。"哦不，"角色一边说，一边把蜂蜜挤在自己的蹄子上。说实话，这个点子不算差。但问题是，蜂蜜瓶在整个视频中不断变化：从罐子变成装水的透明挤压瓶，然后又变回装满蜂蜜的挤压瓶。而且我根本无法描述模型是如何生成视频最终帧的——就好像它只是把刚刚生成的序列里的各种元素胡乱拼凑在一起。你可以用文字提示来建议对视频进行编辑，这一点我要给谷歌点赞：Omni在这方面的表现比我测试Veo 3时要好。但当时Veo的效果太差了——差到每次我想修改时，都觉得从头生成一个新视频要容易得多。Omni确实会采纳你的编辑意见，但结果并非总能如愿。我让它突出Buddy在度假片段中的面部反应，结果看起来很奇怪。它还会时不时给Buddy加上鹿角，而它本来是没有鹿角的。Buddy可是个*宝宝*，谢谢。当我提示它移除一个场景中出现的鹿角时，它照做了——然后给所有其他场景都加上了鹿角。问题是，这一切都不是免费的。生成视频需要消耗积分，根据场景长度和起始"素材"不同，消耗15到40积分不等。编辑一次需要40积分。我使用的是每月20美元的AI Pro套餐，每月包含1000积分。在生成了大约20个片段并对其中一些进行了少量编辑后，我的积分只剩145了。如果你对Omni生成的视频有特定的想法，可能需要与模型进行多次代价高昂的反复沟通，才能得到一个接近你设想的视频。老实说，我完全没预料到自己会看到这样的效果 Omni声称的优势之一是在真实视频中添加AI生成的内容，所以这次我让Buddy歇一歇，用AI深度伪造了自己。我从一段面部表情中性的自拍视频开始，提示Omni生成我吃意大利面、坐在飞机座位上、以及在埃菲尔铁塔前咬法棍面包的视频。我真心实意地说，我完全没预料到自己会看到这样的效果。我的深度伪造视频中也有一些AI痕迹。叉子碰到意大利面碗的声音有点过于"制造感"。飞机视频的背景中有一个女人出现了两次。但除了这些小瑕疵和一丝隐约的诡异感之外，这些视频逼真得吓人。我给我丈夫看了吃意大利面的片段；他知道我在测试AI视频工具，但我没告诉他场景中哪些部分是AI生成的。在不知道哪些是AI生成的情况下，他相信我真的坐在摄像机前吃意大利面，并说他唯一觉得不对劲的线索是那个碗看起来很陌生。吃面的动作本身看起来足够真实，以至于能骗过我丈夫——一个在过去十年里几乎*每天*都看着真实的我的人。我其他的深度伪造视频质量参差不齐，但都达到了"足以在社交媒体上骗人"的水平。有几个埃菲尔铁塔的片段看起来有点卡通，但其中一个是够逼真，你可能需要回看几遍才能发现是AI生成的。当AI里的我转过头，露出扎成马尾辫的头发时，*我*知道那不是真正的我。但我不确定其他人是否看得出区别，这让我感觉怪怪的。我们绝对深陷在恐怖谷之中说实话，这一切让我有点心力交瘁。当我测试Veo 3（https://www.theverge.com/ai-artificial-intelligence/673719/google-veo-3-ai-video-audio-sound-effects）时，其能产生的真实感让我震惊。在过去几年里，我一次又一次地震惊于制作虚假照片中的虚假人物有多么容易。我大概也应该对Omni感到震惊，我想我确实有点震惊，但新鲜感已经过去了。生成一部AI电影杰作，并不像谷歌想让你相信的那样轻而易举。但Omni确实在一些可识别的方面改进了Veo。如果你有一个谷歌账号和一张信用卡，那么你可以拍摄一段自己坐在家里的视频，然后花极少的心思就能让它看起来像你正在飞往毛伊岛的航班上。我不认为我们正处于"奇点的山麓（https://www.theverge.com/tech/934260/google-io-ai-singularity-demis-hassabis）"，但我们绝对深陷在恐怖谷之中。 *本报道中的所有图片和视频均由谷歌 Gemini 生成。* **关注本文中的主题和作者**，即可在个性化主页推荐中查看更多类似内容，并接收邮件更新。 - Allison Johnson

谷歌全新的任意输入输出AI模型令人惊叹

相似文章

@GoogleDeepMind: 我们正在发布 Gemini Omni：这是我们迈向能够从任何内容创造任何内容的模型的第一步——从视频开始…

介绍 Gemini Omni：从任意内容生成任意内容

Google 的 Gemini Omni 将图像、音频和文本转化为视频——而这仅仅是个开始

Gemini Omni

Google的Gemini Omni可生成文字极其精准的视频😳

提交意见反馈