用全新生成媒体模型和工具激发你的创意
摘要
Google 发布了 Veo 3 和 Imagen 4,这是下一代视频和图像生成模型,具有显著的能力提升,包括音频生成和增强的物理模拟。该公司还推出了 AI 电影制作工具 Flow,并扩大了 Lyria 2 音乐创作工具的访问权限。
推出 Veo 3 和 Imagen 4,以及一款名为 Flow 的新型电影制作工具。
查看缓存全文
缓存时间:
2026/04/20 08:35
# 用新的生成式媒体模型和工具释放创意
来源:https://blog.google/innovation-and-ai/products/generative-media-models-io-2025/
推出 Veo 3 和 Imagen 4,以及一款名为 Flow 的新电影制作工具。
AI 生成的各种自然图像拼贴
本文内容
- Veo 3 (https://blog.google/innovation-and-ai/products/generative-media-models-io-2025/#veo-3)
- Veo 2 更新 (https://blog.google/innovation-and-ai/products/generative-media-models-io-2025/#veo-2-updates)
- Flow (https://blog.google/innovation-and-ai/products/generative-media-models-io-2025/#flow)
- Imagen 4 (https://blog.google/innovation-and-ai/products/generative-media-models-io-2025/#imagen-4)
- Lyria 2 (https://blog.google/innovation-and-ai/products/generative-media-models-io-2025/#lyria-2)
- 负责任的创作 (https://blog.google/innovation-and-ai/products/generative-media-models-io-2025/#responsible-creation)
今天,我们宣布推出最新的生成式媒体模型,标志着重大突破。这些模型可以创建令人惊艳的图像、视频和音乐,让艺术家能够将创意想法变为现实。它们还为每个人提供了强大的表达工具。
Veo 3 和 Imagen 4 是我们最新的视频和图像生成模型,推动了媒体生成的前沿发展,具备开创性的新功能。我们还在扩大 Lyria 2 的使用范围,为音乐人提供更多创作工具。最后,我们邀请视觉叙事创作者尝试 Flow,这是我们新推出的 AI 电影制作工具。Flow 利用 Google DeepMind 最先进的模型,让你能够以更精细的角色、场景和风格控制来制作电影大片,让你的故事栩栩如生。
我们与创意产业——电影制作人、音乐人、艺术家、YouTube 创作者——紧密合作,帮助以负责任的方式塑造这些模型和产品,为创作者提供新工具来实现 AI 在艺术中的可能性。
## Veo 3:视频遇见音频
Veo 3 是我们最先进的视频生成模型,不仅改进了 Veo 2 的质量,而且首次可以生成带有音频的视频——城市街道场景中的交通噪音、公园里的鸟鸣声,甚至角色之间的对话。
从各方面看,Veo 3 在文本和图像提示、真实物理效果和准确的口型同步方面都表现出色。它很擅长理解——你可以在提示中讲述一个简短的故事,模型就会为你生成一个生动的视频片段。Veo 3 现已面向美国 Gemini 应用中的 Ultra 订阅用户推出,也可在 Flow 中使用。企业用户也可以通过 Vertex AI 访问。
## Veo 2 更新:与电影制作人合作开发的新功能
在推进 Veo 3 的同时,我们还为流行的 Veo 2 模型增加了新功能,这些功能是在与创作者和电影制作人的合作中开发的。今天,我们推出了其中多项新功能,包括:
- **最先进的参考驱动视频**功能让你可以提供 Veo 角色、场景、物体甚至风格的图像,以获得更好的创意控制和一致性。
- **摄像机控制**帮助你定义精确的摄像机运动,包括旋转、推拉和缩放,以实现完美的镜头。
- **外扩**功能让你能扩展画幅,将视频从竖屏转换为横屏,更轻松地适配任何屏幕尺寸,并智能地扩展场景。
- **物体添加和删除**让你可以在视频中添加或删除物体。Veo 能理解比例、交互和阴影,并利用这些理解创建自然逼真的场景。
参考驱动视频和摄像机控制功能现已在 Flow 中推出。我们期待在未来几周内将所有这些新功能添加到 Vertex AI API 中,并在接下来的几个月内扩展到更多产品。
外扩并添加城堡
## Flow:为 Veo 设计的 AI 电影制作工具
Flow 是与创意工作者一起开发的 AI 电影制作工具,它让你能够通过融合 Google DeepMind 最先进的模型(Veo、Imagen 和 Gemini)来无缝创建电影片段、场景和故事。使用自然语言向 Flow 描述你的镜头,在一个便利的位置管理你故事的素材——演员、地点、物体和风格,然后使用 Flow 将你的叙事编织成精美的场景。
Flow 目前面向美国的 Google AI Pro 和 Ultra 计划订阅用户推出,更多国家即将上线。
## Imagen 4:惊人的品质和卓越的排版
我们最新的 Imagen 模型将速度与精度相结合,创建惊人的图像。Imagen 4 在复杂织物、水滴和动物毛发等细节中具有出色的清晰度,在逼真和抽象风格中都表现出色。Imagen 4 可以创建多种宽高比的图像,分辨率高达 2k——更适合打印或演示。它在拼写和排版方面也有显著改进,更容易创建你自己的贺卡、海报甚至漫画。
Imagen 4 现已在 Gemini 应用、Whisk、Vertex AI 以及 Workspace 中的 Slides、Vids、Docs 等应用中推出。
我们很快还将推出 Imagen 4 的快速版本,速度比 Imagen 3 快 10 倍——让你能更快地探索想法。
## Lyria 2:强大的作曲和无尽的探索
今年 4 月,我们扩大了由 Lyria 2 提供支持的 Music AI Sandbox 的使用范围。Music AI Sandbox 为音乐人、制作人和词曲作者提供了一套实验工具,可以激发新的创意可能性,帮助艺术家探索独特的音乐想法。音乐行业的专业知识和宝贵反馈帮助我们确保我们的工具赋能创作者,同时邀请创意工作者实现 AI 在艺术中的可能性。
Lyria 2 带来强大的作曲能力和无尽的探索可能,现已通过 YouTube Shorts 和 Vertex AI 企业版面向创作者推出。我们还让 Lyria RealTime(我们的交互式音乐生成模型,为 MusicFX DJ 提供支持)通过 API 和 AI Studio 推出。Lyria RealTime 让任何人都能实时交互地创建、控制和表演生成式音乐。
## 负责任的创作与创意社区的协作
自 2023 年推出以来,SynthID 已为超过 100 亿张图像、视频、音频文件和文本添加了水印,帮助识别它们为 AI 生成内容,并降低错误信息和误用的风险。Veo 3、Imagen 4 和 Lyria 2 生成的输出将继续包含 SynthID 水印。
今天,我们推出了 SynthID Detector,这是一个验证门户,帮助人们识别 AI 生成的内容。上传一份内容,SynthID Detector 将识别整个文件或其中一部分是否包含 SynthID。
利用我们所有的生成式 AI 模型,我们的目标是释放人类创意,让艺术家和创作者能够比以往更快、更轻松地将他们的想法变为现实。
充满活力渐变色的风格化 3D 文本"IO25"在白色网格背景上。
## 在你的收件箱中获取更多 Google 故事。
完成。仅需一步。
检查你的收件箱以确认订阅。
你已经订阅了我们的新闻通讯。
你也可以通过以下方式订阅
相似文章
Google DeepMind Blog
Google 推出升级版视频生成模型 Veo 3.1,具有更丰富的音频、改进的叙事控制和增强的真实感,同时为 Flow 带来重大更新,包括新的编辑功能(如插入和删除功能)以及对所有现有工具的音频支持。
Google DeepMind Blog
Google 推出了 Veo 2 和 Imagen 3,这些最先进的视频和图像生成模型现已在 VideoFX、ImageFX 和一个名为 Whisk 的新工具中推出。Veo 2 能够生成高质量的 4K 视频,具有改进的物理理解和电影摄影知识,而 Imagen 3 则能够生成更亮丽、构图更佳的图像,并支持多种艺术风格。
X AI KOLs
Google 宣布其 AI 创意工作室 Flow 的更新,包括新的 Gemini Omni Flash 模型,用于多模态视频编辑,具有改进的角色一致性;Flow Agent 用于协作规划和批量编辑;以及通过自然语言创建自定义工具。还推出了新的移动应用和音乐生成模型 Lyria 3 Pro。
YouTube AI Channels
文章介绍了Google I/O 2026 Keynote上发布的生成式媒体产品更新,包括Google Pics图像编辑工具、Stitch UI设计工具,以及Google Flow的新功能如Gemini Omni、多智能体并行处理、自定义工具和音乐混音。强调技术帮助用户将创意快速变为现实。
Google AI Blog
Google Vids 推出了面向所有用户的免费高质量视频生成功能,由 Veo 3.1 驱动,同时提供通过 Lyria 3 创作自定义音乐的功能,并为高级订阅用户新增了 AI 数字人功能。