使用 Nano Banana Pro 构建,我们的 Gemini 3 Pro Image 模型
摘要
Google DeepMind 发布 Gemini 3 Pro Image(也称为 Nano Banana Pro),这是一个高保真图像生成和编辑模型,开发者可通过 Gemini API 和 Google AI Studio 获得高级控制功能。
查看缓存全文
缓存时间:
2026/05/08 09:35
# 使用 Nano Banana Pro 构建应用——我们的 Gemini 3 Pro Image 模型
来源:https://blog.google/innovation-and-ai/technology/developers-tools/gemini-3-pro-image-developers/
以下是开发者如何使用 Nano Banana Pro(Gemini 3 Pro Image)的方法,这是一款功能强大的新型图像生成与编辑模型,具备高级特性和创意控制能力。
Naina Raisinghani
Google DeepMind 产品经理
图片展示多组输入输出图像,中央文字为"Build with Nano Banana Pro"
今天,我们正式发布 Nano Banana Pro(https://blog.google/technology/ai/nano-banana-pro)(Gemini 3 Pro Image),这是一款基于 Gemini 3 Pro(https://blog.google/products/gemini/gemini-3/)构建的更高保真度模型,面向开发者提供工作室级别的图像生成能力。这距离我们发布 Nano Banana(https://developers.googleblog.com/en/introducing-gemini-2-5-flash-image/)(Gemini 2.5 Flash Image)仅过去几个月。在此期间,我们很高兴看到社区充分利用其核心特性(https://github.com/PicoTrex/Awesome-Nano-Banana-images/blob/main/README_en.md)——从角色一致性到照片修复(https://x.com/hsavas/status/1960757462182605059?s=20),甚至利用其能力在无限画布中进行局部编辑(https://x.com/seezatnap/status/1964010356071629289?s=20)。
这款最先进的图像生成与编辑模型已开始以付费预览形式推出,旨在通过 Gemini API(https://ai.google.dev/gemini-api/docs)在 Google AI Studio(https://ai.studio/banana-pro)和面向企业的 Vertex AI(https://console.cloud.google.com/vertex-ai/studio/multimodal)中构建新一代智能多模态应用。该模型能够生成高保真图像,在文本渲染准确性方面表现更优,并具备强大的世界知识,同时还能通过 Google 搜索进行 grounding,根据用户提示检索数据,进一步增强了能力。
Gemini 3 Pro Image 在文本到图像 AI 基准测试中表现卓越。
Gemini 3 Pro Image 文本到图像 AI 基准测试柱状图,与其他领先竞争对手对比
我们还在扩大 Gemini 3 Pro Image 在开发者生态系统中的覆盖范围。在 Google Antigravity(https://antigravity.google/)——我们全新的智能体开发平台中,编码智能体现在可以直接利用这些图像生成能力,为用户生成详细的 UI 原型供审阅,甚至在代码实现前创建新的视觉素材。此外,领先的创意平台也正在集成该模型,包括 Adobe 和 Figma。
## 高保真度与控制力
如果你正在构建需要精确性的高级工具,Gemini 3 Pro Image 可以让你控制图像的物理特性(光照、相机、焦点、色彩分级)和构图,确保输出专业级品质。
金色散景与晨雾中的剪影。
提示词:将体积光替换为散景
图片展示输入输出对比:输入为一名男子剪影与散射阳光的图像,输出为同一场景但使用 AI 增强体积光效果的图像
提供 2K 和 4K 分辨率,确保输出满足专业制作所需的分辨率标准。轻松创建具有凝聚力的广告,整合产品图像、Logo 和参考素材等多种元素。最多可实现五个人的一致外貌还原,整合六个高清镜头,或将多达十四个标准输入融合为一张精致的广告。试试我们的演示应用(http://aistudio.google.com/apps/bundled/product_mockup),可以将 Logo 与产品配对,创建你自己的模型设计。
演示应用:通过参考图像让产品设计栩栩如生。序列已缩短。
## 改进的文本渲染与本地化
Gemini 3 Pro Image 相比 2.5 Flash Image 实现了重大飞跃,将抽象图像生成转变为功能性资产。它在处理逻辑和语言方面表现出色,提供最先进的文本渲染能力,生成清晰、准确的嵌入图像中的文本。
创意美食摄影,每个单词都用与该食物相关的实际食材艺术性地拼写出来。
提示词:制作 8 个精致的极简主义 Logo,每个都是有趣的食物单词,用逼真的食物构成字母来表达该单词的含义。构图:将所有 Logo 呈现在单一纯白色背景上
图片展示用食物元素渲染的单词:Mint、soup、taco、curry、sushi、pasta、apple 和 pizza,均由 AI 生成
它也是开发营销物料、教育内容和众多其他应用的理想解决方案。在 Google AI Studio 的漫画生成器应用(http://aistudio.google.com/apps/bundled/personalized_comics)中体验该模型的能力,你可以创作原创多页漫画,主角是你和朋友,具备高级文本渲染和风格化功能。
演示应用:根据你选择的语言,基于照片和选定类型创作漫画。序列已缩短。
借助 Gemini 3 Pro Image,我们消除了图像生成与本地化逻辑之间的壁垒。这款高级模型能够理解图像的语义上下文,利用图像到图像生成技术,在保持原始艺术风格或版式的前提下,轻松实现菜单、标牌或文档等元素的语言转换。
饮料活动概念展示,将英文文本准确翻译并渲染为法文。
提示词:翻译为法语
输入输出对比图:输入为带有文字的罐装饮料图像,输出为使用 AI 将罐身文字翻译为法语的图像
## 获取世界知识
Gemini 3 Pro Image 连接庞大的知识库,相比以往的图像生成模型能够生成更准确的素材。此外,启用 Google Search grounding 后,模型可以连接实时网络内容,实现数据驱动的输出。这对于需要精确呈现的应用尤为宝贵,例如生物图解或历史地图。通过我们的演示应用(https://aistudio.google.com/apps/bundled/info_genius?showPreview=true&showAssistant=true)亲自体验,你可以动态创建针对任何主题、面向特定受众的信息图。
自行车保养与维护信息图,由创建教育信息图的演示应用生成。
使用简单文本提示通过 AI 构建的自行车保养与维护要点信息图
## 立即开始,尽情发挥创意
本次新模型发布融入了许多你们已经向我们反馈的建议,但我们不会止步于此。为确保 AI 生成媒体的来源清晰可追溯,我们已将 SynthID 数字水印(https://blog.google/technology/ai/ai-image-verification-gemini-app/)直接集成到 Gemini 3 Pro Image 创建或编辑的每一张图像中,以标明其 AI 生成或编辑的来源。
从探索我们使用 Gemini 3 Pro Image 的应用集合(https://aistudio.google.com/apps?source=showcase&showcaseTag=nano-banana)开始,激发你的想象力,看看有哪些可能性。获得灵感后,你可以重新混合这些演示应用,或直接将模型集成到你自己的项目中,通过 Gemini API(http://ai.google.dev/gemini-api/docs)在 Google AI Studio(http://aistudio.google.com/)和面向企业用户的 Vertex AI(https://console.cloud.google.com/vertex-ai/studio/multimodal)中使用。如需技术细节,请查阅文档(https://ai.google.dev/gemini-api/docs/image-generation)、提示词指南(https://ai.google.dev/gemini-api/docs/image-generation#prompt-guide)、实战教程(https://colab.sandbox.google.com/github/google-gemini/cookbook/blob/main/quickstarts/Get_Started_Nano_Banana.ipynb#nano-banana-pro),或访问开发者论坛(https://discuss.ai.google.dev/)获取帮助并分享反馈。
使用 Gemini 2.5 Flash Image 进行更快速、低成本的图像生成,或使用 3 Pro Image 进行更高质量但成本和延迟更高的图像生成。
表格展示 Gemini 2 Pro Image 与 Gemini 2.5 Flash Image 模型在速度、质量和成本方面的对比
### 相关故事
相似文章
Google DeepMind Blog
Google DeepMind 推出 Nano Banana Pro,这是一款基于 Gemini 3 Pro 打造的全新顶尖图像生成与编辑模型。该模型具备更出色的文本渲染能力、增强的世界知识整合能力以及高保真视觉能力,可在 Google 各产品中体验。
Google DeepMind Blog
Google DeepMind 发布 Nano Banana 2,这是一款图像生成模型,融合了 Nano Banana Pro 的先进能力与 Gemini Flash 的速度。该模型具备改进的主体一致性、精准的文字渲染能力,并已集成到 Gemini、Search 等 Google 产品中。
Google DeepMind Blog
Google DeepMind 为 Gemini 应用发布了升级的图像编辑模型,在编辑人物和宠物照片时能保持一致的相似度。这个名为 Nano Banana 的新模型备受好评,支持换装、照片混合和风格迁移等功能,同时保持人物特征的一致性。
Google DeepMind Blog
Google 发布 Gemini 3.1 Pro,这是一款升级后的 AI 模型,推理能力大幅提升,可应对复杂任务,现已面向开发者、企业和消费者推出。
Google DeepMind Blog
Google 发布了 Gemini 3 Pro,这是一款全新的 AI 模型,旨在编程、智能体工作流和多模态推理方面超越之前的版本。该模型可通过 Gemini API、Google AI Studio 以及全新的 Google Antigravity 开发平台使用。