体验 Gemini 2.0 Flash 原生图像生成

Google DeepMind Blog 产品

摘要

Google 向所有开发者开放 Gemini 2.0 Flash 原生图像生成功能,支持多模态文本和图像输出,可用于故事创作、对话式图像编辑以及需要世界理解和文本渲染的应用。

开发者现在可以在 Google AI Studio 和 Gemini API 中体验 Gemini 2.0 Flash 的原生图像输出功能。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:36

# 使用 Gemini 2.0 Flash 原生图像生成进行实验 来源:https://developers.googleblog.com/en/experiment-with-gemini-20-flash-native-image-generation/ 在[12月](https://developers.googleblog.com/en/the-next-chapter-of-the-gemini-era-for-developers/),我们首次向信任的测试者推出了 Gemini 2.0 Flash 的原生图像输出功能。今天,我们在 [Google AI Studio 目前支持的所有地区](https://ai.google.dev/gemini-api/docs/available-regions)向开发者开放了此功能。你可以在 Google AI Studio 中使用 Gemini 2.0 Flash 的实验版本 ([gemini-2.0-flash-exp](https://aistudio.google.com/prompts/new_chat?model=gemini-2.0-flash-exp)) 测试这项新功能,也可以通过 Gemini API 使用。 Gemini 2.0 Flash 结合了多模态输入、增强推理和自然语言理解来生成图像。 以下是 2.0 Flash 多模态输出的几个使用场景: ### **1. 文本和图像相结合** 使用 Gemini 2.0 Flash 讲述一个故事,它会用图片来呈现这个故事,并在整个过程中保持角色和场景的一致性。提供反馈后,模型会重新讲述故事或改变其绘图风格。 抱歉,你的浏览器不支持此视频播放 在 Google AI Studio 中进行故事和插图生成 ### **2. 对话式图像编辑** Gemini 2.0 Flash 通过多轮自然语言对话帮助你编辑图像,非常适合反复迭代以获得完美图像,或一起探索不同想法。 抱歉,你的浏览器不支持此视频播放 在 Google AI Studio 中进行多轮对话图像编辑,全程保持上下文连贯 ### **3. 世界知识理解** 与许多其他图像生成模型不同,Gemini 2.0 Flash 利用世界知识和增强推理来生成*正确的*图像。这使其完美适合创建详细的现实感图像——例如绘制食谱插图。虽然它力求准确,但与所有语言模型一样,其知识是宽泛和通用的,而非绝对或完整的。 抱歉,你的浏览器不支持此视频播放 在 Google AI Studio 中交错显示文本和图像输出的食谱示例 ### **4. 文本渲染** 大多数图像生成模型在准确渲染长文本序列时表现不佳,经常导致格式不当或难以辨认的字符或拼写错误。内部基准测试表明,2.0 Flash 相比领先的竞争模型具有更强的文本渲染能力,非常适合创建广告、社交媒体帖子甚至邀请函。 抱歉,你的浏览器不支持此视频播放 在 Google AI Studio 中进行长文本渲染的图像输出 ## 今天开始使用 Gemini 生成图像 通过 Gemini API 开始使用 Gemini 2.0 Flash。查看我们的[文档](https://ai.google.dev/gemini-api/docs/image-generation)了解更多关于图像生成的信息。 ``` from google import genai from google.genai import types client = genai.Client(api_key="GEMINI_API_KEY") response = client.models.generate_content( model="gemini-2.0-flash-exp", contents=( "Generate a story about a cute baby turtle in a 3d digital art style. " "For each scene, generate an image." ), config=types.GenerateContentConfig( response_modalities=["Text", "Image"] ), ) ``` Python 已复制 无论你是在构建 AI 代理、开发具有精美视觉效果的应用(例如插图交互式故事)或在对话中进行视觉头脑风暴,Gemini 2.0 Flash 都允许你仅使用单个模型就能添加文本和图像生成功能。我们迫不及待地想看到开发者使用原生图像输出功能创建的成果,你的[反馈](https://discuss.ai.google.dev/c/gemini-api/4)将帮助我们尽快推出生产就绪的版本。

相似文章

Gemini 2.0 现已向所有人开放

Google DeepMind Blog

Google 宣布通过 API 正式推出 Gemini 2.0 Flash,并推出实验性的 Gemini 2.0 Pro(用于高级编码和推理任务),以及成本高效的 Gemini 2.0 Flash-Lite。所有模型都支持多模态输入和文本输出,并可通过 Google AI Studio、Vertex AI 和 Gemini 应用访问。

开始使用 Gemini 2.0 Flash 和 Flash-Lite 构建应用

Google DeepMind Blog

Google 宣布 Gemini 2.0 Flash-Lite 正式发布,相比 1.5 Flash 性能提升,定价更简化,并支持 100 万令牌的上下文窗口。该模型现已在 Google AI Studio 和 Vertex AI 中提供,开发者已经在构建语音 AI、数据分析和视频编辑应用。

Gemini 音频模型升级,打造更强大的语音体验

Google DeepMind Blog

Google 更新了 Gemini 2.5 Flash Native Audio,以提升实时语音智能体的能力,包括更精准的函数调用、更好的指令遵循能力,以及更流畅的对话上下文检索。此次更新还在 Google Translate 应用 beta 版中引入了实时语音翻译功能,可在 70 多种语言中保留语音语调。

推出 Gemini 2.5 Flash

Google DeepMind Blog

Google 宣布推出 Gemini 2.5 Flash,这是一个新的混合推理模型,现已通过 Gemini API 以预览版形式提供。该模型具有可切换的思考能力、细粒度的思考预算以平衡质量、成本和延迟,并在保持快速推理速度的同时相比 2.0 Flash 提升了性能。

Gemini 2.5 Flash-Lite 现已准备就绪,可用于大规模生产

Google DeepMind Blog

Google 发布 Gemini 2.5 Flash-Lite 作为稳定版本并正式上线,这是 Gemini 2.5 系列中速度最快、成本最低的模型,定价为每 100 万个令牌 $0.10(输入)/$0.40(输出),具备原生推理能力和与原生工具的完全功能对等。