体验 Gemini 2.0 Flash 原生图像生成

Google DeepMind Blog 2025/03/12 14:58 产品

gemini image-generation multimodal google-ai api-release developer-tools native-output

摘要

Google 向所有开发者开放 Gemini 2.0 Flash 原生图像生成功能，支持多模态文本和图像输出，可用于故事创作、对话式图像编辑以及需要世界理解和文本渲染的应用。

开发者现在可以在 Google AI Studio 和 Gemini API 中体验 Gemini 2.0 Flash 的原生图像输出功能。

查看原文

查看缓存全文

缓存时间: 2026/04/20 08:36

# 使用 Gemini 2.0 Flash 原生图像生成进行实验来源：https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/ 在[12月](https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/)，我们首次向信任的测试者推出了 Gemini 2.0 Flash 的原生图像输出功能。今天，我们在 [Google AI Studio 目前支持的所有地区](https://ai.google.dev/gemini-api/docs/available-regions)向开发者开放了此功能。你可以在 Google AI Studio 中使用 Gemini 2.0 Flash 的实验版本 ([gemini-2.0-flash-exp](https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-exp)) 测试这项新功能，也可以通过 Gemini API 使用。 Gemini 2.0 Flash 结合了多模态输入、增强推理和自然语言理解来生成图像。以下是 2.0 Flash 多模态输出的几个使用场景： ### **1. 文本和图像相结合** 使用 Gemini 2.0 Flash 讲述一个故事，它会用图片来呈现这个故事，并在整个过程中保持角色和场景的一致性。提供反馈后，模型会重新讲述故事或改变其绘图风格。抱歉，你的浏览器不支持此视频播放在 Google AI Studio 中进行故事和插图生成 ### **2. 对话式图像编辑** Gemini 2.0 Flash 通过多轮自然语言对话帮助你编辑图像，非常适合反复迭代以获得完美图像，或一起探索不同想法。抱歉，你的浏览器不支持此视频播放在 Google AI Studio 中进行多轮对话图像编辑，全程保持上下文连贯 ### **3. 世界知识理解** 与许多其他图像生成模型不同，Gemini 2.0 Flash 利用世界知识和增强推理来生成*正确的*图像。这使其完美适合创建详细的现实感图像——例如绘制食谱插图。虽然它力求准确，但与所有语言模型一样，其知识是宽泛和通用的，而非绝对或完整的。抱歉，你的浏览器不支持此视频播放在 Google AI Studio 中交错显示文本和图像输出的食谱示例 ### **4. 文本渲染** 大多数图像生成模型在准确渲染长文本序列时表现不佳，经常导致格式不当或难以辨认的字符或拼写错误。内部基准测试表明，2.0 Flash 相比领先的竞争模型具有更强的文本渲染能力，非常适合创建广告、社交媒体帖子甚至邀请函。抱歉，你的浏览器不支持此视频播放在 Google AI Studio 中进行长文本渲染的图像输出 ## 今天开始使用 Gemini 生成图像通过 Gemini API 开始使用 Gemini 2.0 Flash。查看我们的[文档](https://ai.google.dev/gemini-api/docs/image-generation)了解更多关于图像生成的信息。 ``` from google import genai from google.genai import types client = genai.Client(api_key="GEMINI_API_KEY") response = client.models.generate_content( model="gemini-2.0-flash-exp", contents=( "Generate a story about a cute baby turtle in a 3d digital art style. " "For each scene, generate an image." ), config=types.GenerateContentConfig( response_modalities=["Text", "Image"] ), ) ``` Python 已复制无论你是在构建 AI 代理、开发具有精美视觉效果的应用（例如插图交互式故事）或在对话中进行视觉头脑风暴，Gemini 2.0 Flash 都允许你仅使用单个模型就能添加文本和图像生成功能。我们迫不及待地想看到开发者使用原生图像输出功能创建的成果，你的[反馈](https://discuss.ai.google.dev/c/gemini-api/4)将帮助我们尽快推出生产就绪的版本。

体验 Gemini 2.0 Flash 原生图像生成

相似文章

Gemini 2.0 现已向所有人开放

开始使用 Gemini 2.0 Flash 和 Flash-Lite 构建应用

Google 的 Gemini Omni 将图像、音频和文本转化为视频——而这仅仅是个开始

Gemini 音频模型升级，打造更强大的语音体验

推出 Gemini 2.5 Flash

提交意见反馈