# 使用 Gemini 2.0 Flash 原生图像生成进行实验
来源:https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/
在[12月](https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/),我们首次向信任的测试者推出了 Gemini 2.0 Flash 的原生图像输出功能。今天,我们在 [Google AI Studio 目前支持的所有地区](https://ai.google.dev/gemini-api/docs/available-regions)向开发者开放了此功能。你可以在 Google AI Studio 中使用 Gemini 2.0 Flash 的实验版本 ([gemini-2.0-flash-exp](https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-exp)) 测试这项新功能,也可以通过 Gemini API 使用。
Gemini 2.0 Flash 结合了多模态输入、增强推理和自然语言理解来生成图像。
以下是 2.0 Flash 多模态输出的几个使用场景:
### **1. 文本和图像相结合**
使用 Gemini 2.0 Flash 讲述一个故事,它会用图片来呈现这个故事,并在整个过程中保持角色和场景的一致性。提供反馈后,模型会重新讲述故事或改变其绘图风格。
抱歉,你的浏览器不支持此视频播放
在 Google AI Studio 中进行故事和插图生成
### **2. 对话式图像编辑**
Gemini 2.0 Flash 通过多轮自然语言对话帮助你编辑图像,非常适合反复迭代以获得完美图像,或一起探索不同想法。
抱歉,你的浏览器不支持此视频播放
在 Google AI Studio 中进行多轮对话图像编辑,全程保持上下文连贯
### **3. 世界知识理解**
与许多其他图像生成模型不同,Gemini 2.0 Flash 利用世界知识和增强推理来生成*正确的*图像。这使其完美适合创建详细的现实感图像——例如绘制食谱插图。虽然它力求准确,但与所有语言模型一样,其知识是宽泛和通用的,而非绝对或完整的。
抱歉,你的浏览器不支持此视频播放
在 Google AI Studio 中交错显示文本和图像输出的食谱示例
### **4. 文本渲染**
大多数图像生成模型在准确渲染长文本序列时表现不佳,经常导致格式不当或难以辨认的字符或拼写错误。内部基准测试表明,2.0 Flash 相比领先的竞争模型具有更强的文本渲染能力,非常适合创建广告、社交媒体帖子甚至邀请函。
抱歉,你的浏览器不支持此视频播放
在 Google AI Studio 中进行长文本渲染的图像输出
## 今天开始使用 Gemini 生成图像
通过 Gemini API 开始使用 Gemini 2.0 Flash。查看我们的[文档](https://ai.google.dev/gemini-api/docs/image-generation)了解更多关于图像生成的信息。
```
from google import genai
from google.genai import types
client = genai.Client(api_key="GEMINI_API_KEY")
response = client.models.generate_content(
model="gemini-2.0-flash-exp",
contents=(
"Generate a story about a cute baby turtle in a 3d digital art style. "
"For each scene, generate an image."
),
config=types.GenerateContentConfig(
response_modalities=["Text", "Image"]
),
)
```
Python
已复制
无论你是在构建 AI 代理、开发具有精美视觉效果的应用(例如插图交互式故事)或在对话中进行视觉头脑风暴,Gemini 2.0 Flash 都允许你仅使用单个模型就能添加文本和图像生成功能。我们迫不及待地想看到开发者使用原生图像输出功能创建的成果,你的[反馈](https://discuss.ai.google.dev/c/gemini-api/4)将帮助我们尽快推出生产就绪的版本。
Google 宣布通过 API 正式推出 Gemini 2.0 Flash,并推出实验性的 Gemini 2.0 Pro(用于高级编码和推理任务),以及成本高效的 Gemini 2.0 Flash-Lite。所有模型都支持多模态输入和文本输出,并可通过 Google AI Studio、Vertex AI 和 Gemini 应用访问。