使用 Veo 2 和 Imagen 3 进行最先进的视频和图像生成

Google DeepMind Blog 模型

摘要

Google 推出了 Veo 2 和 Imagen 3,这些最先进的视频和图像生成模型现已在 VideoFX、ImageFX 和一个名为 Whisk 的新工具中推出。Veo 2 能够生成高质量的 4K 视频,具有改进的物理理解和电影摄影知识,而 Imagen 3 则能够生成更亮丽、构图更佳的图像,并支持多种艺术风格。

我们推出了一个新的最先进视频模型 Veo 2,以及对 Imagen 3 的更新。此外,请查看我们的新实验 Whisk。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:36

# 利用 Veo 2 和 Imagen 3 实现最先进的视频和图像生成 来源: https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/ 我们宣布推出 Veo 和 Imagen 的新版本,并引入我们最新的图像生成实验项目:Whisk。 Elias Roman Google Labs 产品管理高级总监 ## 总体概述 Google 发布了其视频和图像生成模型 Veo 2 和 Imagen 3 的更新版本。这些模型现已在 Google Labs 工具 VideoFX 和 ImageFX 中提供,以及一个名为 Whisk 的新工具。Veo 2 生成具有改进的真实感和电影摄影理解的高质量视频,而 Imagen 3 则生成更亮、构图更好、艺术风格更加多样的图像。 摘要由 Google AI 生成。生成式 AI 处于实验阶段。 三张不同的 AI 生成图像放在抽象背景前 今年早些时候 (https://blog.google/technology/ai/google-generative-ai-veo-imagen-3/),我们推出了视频生成模型 Veo 和最新的图像生成模型 Imagen 3。自那以来,看到人们借助这些模型的帮助将自己的想法变为现实令人兴奋:YouTube 创作者正在探索 YouTube Shorts (https://www.youtube.com/watch?v=HO-Z5kO8scA) 视频背景的创意可能性,企业客户正在增强 Vertex AI (https://cloud.google.com/blog/products/ai-machine-learning/introducing-veo-and-imagen-3-on-vertex-ai) 上的创意工作流,创意工作者正在使用 VideoFX (https://labs.google/fx/tools/video-fx) 和 ImageFX (https://labs.google/fx/tools/image-fx) 来讲述他们的故事。与从电影制作者到企业的各种合作者合作,我们正在继续开发和改进这些技术。 今天我们推出了新的视频模型 Veo 2 和最新版本的 Imagen 3,两者都取得了最先进的成果。这些模型现已在 VideoFX、ImageFX 和我们最新的 Labs 实验项目 Whisk (https://labs.google/fx/tools/whisk) 中提供。 ## Veo 2:最先进的视频生成 Veo 2 能够以各种主题和风格创建极其高质量的视频。在由人工评分员进行的一对一比较中,Veo 2 对标领先模型实现了最先进的成果 (https://deepmind.google/technologies/veo/veo-2)。 它对现实世界物理和人类运动与表情的细微差别有了更好的理解,这有助于提高其整体细节和真实感。Veo 2 理解电影摄影的独特语言:要求它按照某个类型,指定镜头,建议电影效果,Veo 2 就会交付成果——分辨率最高可达 4K,时长可以延伸至数分钟。要求一个低角度追踪镜头在场景中间滑动,或者科学家用显微镜观察时的特写镜头,Veo 2 都能创建。在提示中建议"18mm 镜头",Veo 2 就知道创建这种镜头所呈现的广角效果,或者通过在提示中加入"浅景深"来模糊背景并聚焦主体。 Veo 2 高质量视频生成能力的示例。所有视频均由 Veo 2 生成,未经修改。 Veo 2 高质量视频生成能力的示例。所有视频均由 Veo 2 生成,未经修改。 Veo 2 高质量视频生成能力的示例。所有视频均由 Veo 2 生成,未经修改。 Veo 2 高质量视频生成能力的示例。所有视频均由 Veo 2 生成,未经修改。 Veo 2 高质量视频生成能力的示例。所有视频均由 Veo 2 生成,未经修改。 Veo 2 高质量视频生成能力的示例。所有视频均由 Veo 2 生成,未经修改。 Veo 2 高质量视频生成能力的示例。所有视频均由 Veo 2 生成,未经修改。 虽然视频模型经常会"产生幻觉"产生不需要的细节——例如多出的手指或意外的物体——但 Veo 2 产生这些现象的频率更低,使输出更加逼真。 对安全和负责任的开发的承诺指导了 Veo 2 的开发。我们在扩大 Veo 的可用性时一直采取谨慎措施,以便我们能够帮助识别、理解和改进模型的质量和安全,同时通过 VideoFX、YouTube 和 Vertex AI 逐步推出它。 就像我们其他图像和视频生成模型一样,Veo 2 的输出包含一个不可见的 SynthID 水印,可帮助将其识别为 AI 生成的内容,有助于减少错误信息和误归属的机会。 今天,我们为我们的 Google Labs 视频生成工具 VideoFX 引入了新的 Veo 2 功能,并扩大了可以访问它的用户数量。访问 Google Labs (https://labs.google/fx/tools/video-fx) 注册等待列表。我们还计划在明年扩展 Veo 2 到 YouTube Shorts 和其他产品。 *注:在本文底部找到所有视频的提示:科学家*1 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-1)*、卡通人物*2 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-2)*、蜜蜂*3 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-3)*、火烈鸟*4 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-4)*、立方体*5 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-5)*、狗*6 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-6)*、煎饼*7 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-7) ## Imagen 3:最先进的图像生成 我们还改进了 Imagen 3 (https://deepmind.google/technologies/imagen-3/) 图像生成模型,它现在生成更亮、构图更好的图像。它现在可以以更高的准确度呈现更多样化的艺术风格——从光影真实主义到印象派,从抽象艺术到动画。此次升级还使其更忠实地遵循提示,并呈现更丰富的细节和纹理。在由人工评分员进行的与领先图像生成模型的并排比较中,Imagen 3 实现了最先进的成果 (https://deepmind.google/technologies/imagen-3/)。 从今天开始,最新的 Imagen 3 模型将在我们来自 Google Labs 的图像生成工具 ImageFX 中全球推出,覆盖超过 100 个国家。访问 ImageFX (https://labs.google/fx/tools/image-fx) 来开始。 特写镜头捕捉到一个冬季仙景——柔软的雪花飘落在雪覆盖的森林地面上。在一根覆盖霜层的松树枝后面,一只红松鼠坐着,它明亮的橙色毛皮在白色中显得格外耀眼。它握着一个小榛子。享受着它的美餐,它似乎浑然不觉地面飘落的雪。 Imagen 3 的丰富细节和图像质量构图示例 工匠手的极端特写,在轮子上塑造一块发光的陶土。金色的发光能量线将陶艺师的双手与粘土相连,随着他们的动作动态地旋转。 Imagen 3 的丰富细节和图像质量构图示例 一个雾蒙蒙的 1940 年代欧洲火车站在黎明时分,由复杂的锻铁拱门和雾蒙蒙的玻璃窗框住。蒸气从铁轨升起,与浓雾混合。两个爱人在火车附近进行情感拥抱,由昏暗灯笼的温暖琥珀色光线逆光照亮。正在离开的火车部分可见,其红色尾灯消失在雾中。女人穿着褪色的红色外套,紧握着一本小皮革日记,而男人穿着破旧的士兵制服。灰尘微粒在空气中浮动,由柔和的金色逆光照亮。气氛忧郁而永恒,唤起战争时代电影的苦乐参半的告别。 Imagen 3 的丰富细节和图像质量构图示例 一个背景为霓虹绿灯的亚洲女性肖像,景深浅。 Imagen 3 的丰富细节和图像质量构图示例 一个草莓的微距摄影特写库存照片,巧妙地雕刻成正在飞行中的蜂鸟形状,其翅膀处于模糊状态,正从充满活力的管状花朵中吮吸花蜜。背景采用柔和散焦效果的郁郁葱葱、色彩缤纷的花园,营造出梦幻般的氛围。图像细节非常丰富,采用浅景深捕捉,确保对草莓蜂鸟的锐利焦点和背景的温和淡化。高分辨率、专业摄影师风格和柔和照明以非常详细的方式照亮场景,专业色彩分级放大了鲜艳的色彩,创建了具有超凡清晰度的图像。景深使蜂鸟和花朵在散焦背景中清晰显现。 Imagen 3 的丰富细节和图像质量构图示例 *注:在本文底部找到所有图像的提示:陶艺师*8 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-8)*、松鼠*9 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-9)*、火车站*10 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-10)*、女性*11 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-11)*、草莓鸟*12 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-12) ## Whisk:一个有趣的新工具,让你用图像提示来可视化你的想法 Whisk (https://labs.google/fx/tools/whisk) 是我们来自 Google Labs 的最新实验项目,让你输入或创建能够传达你心目中主体、场景和风格的图像。然后,你可以将它们组合在一起并重新混合,创建独特的东西,从数字毛绒玩具到搪瓷别针或贴纸。 在幕后,Whisk 结合了我们最新的 Imagen 3 模型和 Gemini 的视觉理解和描述能力。Gemini 模型会自动写出你的图像的详细描述,然后将这些描述输入到 Imagen 3 中。这个过程允许你轻松地以有趣的新方式重新混合你的主体、场景和风格。 Whisk 今天在美国推出。了解更多关于 Whisk (https://blog.google/technology/google-labs/whisk) 的信息并在 labs.google/Whisk (https://labs.google/fx/tools/whisk) 尝试它。 ### 相关文章

相似文章

用全新生成媒体模型和工具激发你的创意

Google DeepMind Blog

Google 发布了 Veo 3 和 Imagen 4,这是下一代视频和图像生成模型,具有显著的能力提升,包括音频生成和增强的物理模拟。该公司还推出了 AI 电影制作工具 Flow,并扩大了 Lyria 2 音乐创作工具的访问权限。

推出 Veo 3.1 和高级创意功能

Google DeepMind Blog

Google 推出升级版视频生成模型 Veo 3.1,具有更丰富的音频、改进的叙事控制和增强的真实感,同时为 Flow 带来重大更新,包括新的编辑功能(如插入和删除功能)以及对所有现有工具的音频支持。

在 Gemini 和 Whisk 中使用 Veo 2 生成视频

Google DeepMind Blog

Google 在 Gemini Advanced 和 Whisk 中推出 Veo 2 视频生成功能,允许用户通过文本提示创建高分辨率 8 秒视频或为图像添加动画效果,面向 Google One AI Premium 订阅者提供。