使用 Veo 2 和 Imagen 3 进行最先进的视频和图像生成

Google DeepMind Blog 2024/12/16 17:01 模型

video-generation image-generation google-labs state-of-the-art multimodal generative-ai

摘要

Google 推出了 Veo 2 和 Imagen 3，这些最先进的视频和图像生成模型现已在 VideoFX、ImageFX 和一个名为 Whisk 的新工具中推出。Veo 2 能够生成高质量的 4K 视频，具有改进的物理理解和电影摄影知识，而 Imagen 3 则能够生成更亮丽、构图更佳的图像，并支持多种艺术风格。

我们推出了一个新的最先进视频模型 Veo 2，以及对 Imagen 3 的更新。此外，请查看我们的新实验 Whisk。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:36

# 利用 Veo 2 和 Imagen 3 实现最先进的视频和图像生成来源: https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/ 我们宣布推出 Veo 和 Imagen 的新版本，并引入我们最新的图像生成实验项目：Whisk。 Elias Roman Google Labs 产品管理高级总监 ## 总体概述 Google 发布了其视频和图像生成模型 Veo 2 和 Imagen 3 的更新版本。这些模型现已在 Google Labs 工具 VideoFX 和 ImageFX 中提供，以及一个名为 Whisk 的新工具。Veo 2 生成具有改进的真实感和电影摄影理解的高质量视频，而 Imagen 3 则生成更亮、构图更好、艺术风格更加多样的图像。摘要由 Google AI 生成。生成式 AI 处于实验阶段。三张不同的 AI 生成图像放在抽象背景前今年早些时候 (https://blog.google/technology/ai/google-generative-ai-veo-imagen-3/)，我们推出了视频生成模型 Veo 和最新的图像生成模型 Imagen 3。自那以来，看到人们借助这些模型的帮助将自己的想法变为现实令人兴奋：YouTube 创作者正在探索 YouTube Shorts (https://www.youtube.com/watch?v=HO-Z5kO8scA) 视频背景的创意可能性，企业客户正在增强 Vertex AI (https://cloud.google.com/blog/products/ai-machine-learning/introducing-veo-and-imagen-3-on-vertex-ai) 上的创意工作流，创意工作者正在使用 VideoFX (https://labs.google/fx/tools/video-fx) 和 ImageFX (https://labs.google/fx/tools/image-fx) 来讲述他们的故事。与从电影制作者到企业的各种合作者合作，我们正在继续开发和改进这些技术。今天我们推出了新的视频模型 Veo 2 和最新版本的 Imagen 3，两者都取得了最先进的成果。这些模型现已在 VideoFX、ImageFX 和我们最新的 Labs 实验项目 Whisk (https://labs.google/fx/tools/whisk) 中提供。 ## Veo 2：最先进的视频生成 Veo 2 能够以各种主题和风格创建极其高质量的视频。在由人工评分员进行的一对一比较中，Veo 2 对标领先模型实现了最先进的成果 (https://deepmind.google/technologies/veo/veo-2)。它对现实世界物理和人类运动与表情的细微差别有了更好的理解，这有助于提高其整体细节和真实感。Veo 2 理解电影摄影的独特语言：要求它按照某个类型，指定镜头，建议电影效果，Veo 2 就会交付成果——分辨率最高可达 4K，时长可以延伸至数分钟。要求一个低角度追踪镜头在场景中间滑动，或者科学家用显微镜观察时的特写镜头，Veo 2 都能创建。在提示中建议"18mm 镜头"，Veo 2 就知道创建这种镜头所呈现的广角效果，或者通过在提示中加入"浅景深"来模糊背景并聚焦主体。 Veo 2 高质量视频生成能力的示例。所有视频均由 Veo 2 生成，未经修改。 Veo 2 高质量视频生成能力的示例。所有视频均由 Veo 2 生成，未经修改。 Veo 2 高质量视频生成能力的示例。所有视频均由 Veo 2 生成，未经修改。 Veo 2 高质量视频生成能力的示例。所有视频均由 Veo 2 生成，未经修改。 Veo 2 高质量视频生成能力的示例。所有视频均由 Veo 2 生成，未经修改。 Veo 2 高质量视频生成能力的示例。所有视频均由 Veo 2 生成，未经修改。 Veo 2 高质量视频生成能力的示例。所有视频均由 Veo 2 生成，未经修改。虽然视频模型经常会"产生幻觉"产生不需要的细节——例如多出的手指或意外的物体——但 Veo 2 产生这些现象的频率更低，使输出更加逼真。对安全和负责任的开发的承诺指导了 Veo 2 的开发。我们在扩大 Veo 的可用性时一直采取谨慎措施，以便我们能够帮助识别、理解和改进模型的质量和安全，同时通过 VideoFX、YouTube 和 Vertex AI 逐步推出它。就像我们其他图像和视频生成模型一样，Veo 2 的输出包含一个不可见的 SynthID 水印，可帮助将其识别为 AI 生成的内容，有助于减少错误信息和误归属的机会。今天，我们为我们的 Google Labs 视频生成工具 VideoFX 引入了新的 Veo 2 功能，并扩大了可以访问它的用户数量。访问 Google Labs (https://labs.google/fx/tools/video-fx) 注册等待列表。我们还计划在明年扩展 Veo 2 到 YouTube Shorts 和其他产品。 *注：在本文底部找到所有视频的提示：科学家*1 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-1)*、卡通人物*2 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-2)*、蜜蜂*3 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-3)*、火烈鸟*4 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-4)*、立方体*5 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-5)*、狗*6 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-6)*、煎饼*7 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-7) ## Imagen 3：最先进的图像生成我们还改进了 Imagen 3 (https://deepmind.google/technologies/imagen-3/) 图像生成模型，它现在生成更亮、构图更好的图像。它现在可以以更高的准确度呈现更多样化的艺术风格——从光影真实主义到印象派，从抽象艺术到动画。此次升级还使其更忠实地遵循提示，并呈现更丰富的细节和纹理。在由人工评分员进行的与领先图像生成模型的并排比较中，Imagen 3 实现了最先进的成果 (https://deepmind.google/technologies/imagen-3/)。从今天开始，最新的 Imagen 3 模型将在我们来自 Google Labs 的图像生成工具 ImageFX 中全球推出，覆盖超过 100 个国家。访问 ImageFX (https://labs.google/fx/tools/image-fx) 来开始。特写镜头捕捉到一个冬季仙景——柔软的雪花飘落在雪覆盖的森林地面上。在一根覆盖霜层的松树枝后面，一只红松鼠坐着，它明亮的橙色毛皮在白色中显得格外耀眼。它握着一个小榛子。享受着它的美餐，它似乎浑然不觉地面飘落的雪。 Imagen 3 的丰富细节和图像质量构图示例工匠手的极端特写，在轮子上塑造一块发光的陶土。金色的发光能量线将陶艺师的双手与粘土相连，随着他们的动作动态地旋转。 Imagen 3 的丰富细节和图像质量构图示例一个雾蒙蒙的 1940 年代欧洲火车站在黎明时分，由复杂的锻铁拱门和雾蒙蒙的玻璃窗框住。蒸气从铁轨升起，与浓雾混合。两个爱人在火车附近进行情感拥抱，由昏暗灯笼的温暖琥珀色光线逆光照亮。正在离开的火车部分可见，其红色尾灯消失在雾中。女人穿着褪色的红色外套，紧握着一本小皮革日记，而男人穿着破旧的士兵制服。灰尘微粒在空气中浮动，由柔和的金色逆光照亮。气氛忧郁而永恒，唤起战争时代电影的苦乐参半的告别。 Imagen 3 的丰富细节和图像质量构图示例一个背景为霓虹绿灯的亚洲女性肖像，景深浅。 Imagen 3 的丰富细节和图像质量构图示例一个草莓的微距摄影特写库存照片，巧妙地雕刻成正在飞行中的蜂鸟形状，其翅膀处于模糊状态，正从充满活力的管状花朵中吮吸花蜜。背景采用柔和散焦效果的郁郁葱葱、色彩缤纷的花园，营造出梦幻般的氛围。图像细节非常丰富，采用浅景深捕捉，确保对草莓蜂鸟的锐利焦点和背景的温和淡化。高分辨率、专业摄影师风格和柔和照明以非常详细的方式照亮场景，专业色彩分级放大了鲜艳的色彩，创建了具有超凡清晰度的图像。景深使蜂鸟和花朵在散焦背景中清晰显现。 Imagen 3 的丰富细节和图像质量构图示例 *注：在本文底部找到所有图像的提示：陶艺师*8 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-8)*、松鼠*9 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-9)*、火车站*10 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-10)*、女性*11 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-11)*、草莓鸟*12 (https://blog.google/innovation-and-ai/models-and-research/google-labs/video-image-generation-update-december-2024/#footnote-12) ## Whisk：一个有趣的新工具，让你用图像提示来可视化你的想法 Whisk (https://labs.google/fx/tools/whisk) 是我们来自 Google Labs 的最新实验项目，让你输入或创建能够传达你心目中主体、场景和风格的图像。然后，你可以将它们组合在一起并重新混合，创建独特的东西，从数字毛绒玩具到搪瓷别针或贴纸。在幕后，Whisk 结合了我们最新的 Imagen 3 模型和 Gemini 的视觉理解和描述能力。Gemini 模型会自动写出你的图像的详细描述，然后将这些描述输入到 Imagen 3 中。这个过程允许你轻松地以有趣的新方式重新混合你的主体、场景和风格。 Whisk 今天在美国推出。了解更多关于 Whisk (https://blog.google/technology/google-labs/whisk) 的信息并在 labs.google/Whisk (https://labs.google/fx/tools/whisk) 尝试它。 ### 相关文章

使用 Veo 2 和 Imagen 3 进行最先进的视频和图像生成

相似文章

用全新生成媒体模型和工具激发你的创意

推出 Veo 3.1 和高级创意功能

在 Gemini 和 Whisk 中使用 Veo 2 生成视频

Veo 3.1 Ingredients to Video：更强的一致性、创造力与控制力

使用 Veo 3.1 Lite 进行构建，这是我们最具性价比的视频生成模型

提交意见反馈