Nano Banana 终于被取代。GPT-Image 2.0 全面评测

YouTube AI Channels 模型

摘要

GPT Image 2.0 正式发布,其在文本渲染、逻辑推理以及复杂提示词遵循能力方面均优于竞品。本文重点介绍了通过使用“photorealism”(照片级真实感)关键词及 4K API 选项等特定技巧,以实现高质量、逼真效果的方法。

暂无内容
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 07:49

TL;DR:GPT Image 2.0 已发布,这标志着 AI 图像生成取得了重大飞跃。特别是在文本渲染、逻辑推理和复杂提示词遵循方面,它有效地超越了“Nano Banana”(注:原文可能指代 Midjourney 或特定竞品,此处保留原名)等竞争对手。特别是结合使用“photorealism”(照片级真实感)关键词和“Thinking Mode”(思考模式)进行研究支持的输出时,优势尤为明显。 ## 引言:GPT Image 2.0 与现有霸主 GPT Image 2.0 的发布代表了能力上的巨大飞跃。很长一段时间以来,**Nano Banana** 一直稳居图像生成模型的头把交椅。然而,GPT Image 2.0 现在直接在几个关键领域与其竞争并超越它。广泛的测试揭示了实用技巧令人印象深刻的能力,特别是在文本处理和逻辑推理方面。 ### “Photorealism”(照片级真实感)提示技巧 最初使用“photorealistic”(照片般真实)、“iPhone photo”(iPhone 照片)或“cinematic”(电影感)等标准提示词生成逼真图像时,效果令人失望。但是,在提示词中添加特定关键词 **"photorealism"** 显著改善了结果。 * **示例:** 保持提示词其余部分不变,添加“photorealism”提升了输出质量。 * **观察:** 每个模型都有不同的偏好。仍然需要实验,但这个关键词是实现逼真美学的有力调整。 该模型在提示词遵循方面也表现出强大的基线性能,即使涉及多个角色,也能保持面部一致性和整体构图质量,这代表了相比先前版本的重大升级。 ## 图像编辑和复杂构图 图像编辑仍然是现代模型的强项,GPT Image 2.0 在这方面表现出色。 * **修改:** 给兽人加上一把战斧、将兽人性别改为女性、旋转视角、放大以及为角添加红色光芒等操作均完美执行。 * **一致性:** 将角度更改为全身正面视图时,尽管存在轻微的颜色变化,但仍保持了完美角色一致性——这是许多模型难以完成的任务。 * **网格布局:** 一项具有挑战性的测试涉及在一个房间内按照特定放置指令布置八项物品的网格,处理得非常出色。虽然水豚看起来比预期稍大,但执行效果优于其他测试模型,面部细节极佳。 ### 照片混合与 4K 分辨率 结合两张真实照片历来是一项难题。在此测试中,GPT Image 2.0 表现良好。然而,初始的面部保真度较低。通过 API 使用 **4K 选项**(通过 Higgs Field 测试)大幅提高了清晰度。 * **比较:** 在 Nano Banana 上运行相同的 4K 提示词会导致奇怪的伪影。GPT Image 2.0 提供了更干净、更连贯的混合效果。 ### 动态场景中的角色一致性 * **火山滑雪:** 生成了完美的动作镜头。 * **冲浪:** 初始输出具有风格化美学,缺乏真实感。添加“photorealism”纠正了这一点。 * **叙事一致性:** 成功将相同角色集成到连续场景中(跳伞、探索鬼屋),相比以往与其他生成器的体验,保持了一致性。 ## 文本渲染和 UI 重构 文本处理是 GPT Image 2.0 相比 Nano Banana 显示显著优势的地方。 ### 白板和文档 * **白板:** 生成的文本没有错误。每个字符都很完美,尽管手写体看起来略显过于工整。 * **书籍:** 存在一些小问题,但整体作品质量很高。 ### 电影海报和缩略图 * ** parody 海报:** GPT Image 2.0 正确渲染了底部的所有小细节,包括“Binary Bard”(音乐)、“Cut and Code”(编辑)和“Pixel and Pine”(制作设计)的演职员表。 * **比较:** 虽然有些人更喜欢 Nano Banana 输出的美学效果,但放大后会发现文本扭曲且无意义。 * **缩略图:** 首次尝试生成 YouTube 缩略图取得了极好的效果,优于 Nano Banana 的直接输出。用户计划对这些缩略图进行 A/B 测试。 ### UI 和工作流复制 * **UI 截图:** 该模型可以以惊人的准确度重现复杂的 UI。例如包括带有独特名称和头像的评论区,以及 Midjourney 探索页面。这引发了人们对在线图片可信度的担忧。 * **ComfyUI 工作流:** 基于 X 用户 Fofur 的提示,该模型生成了详细的 ComfyUI 工作流图像。它正确包含了“Animate Diff”、“Motion LoRA”、负面提示和典型帧率的节点。虽然一些连接线不完美,但文本准确度远优于 Nano Banana,后者在相同测试中产生了广泛的文本错误。 ## 逻辑推理和“思考模式” GPT Image 2.0 在生成图像之前进行“思考”的能力是一个强大的功能。当启用 **Thinking Mode**(思考模式)时,模型会花费数分钟研究并规划输出。 ### 字母动物网格 一个经典的挑战涉及一个 26 个字母的网格,其中每个字母对应一个以该字母开头的动物。 * **Nano Banana Pro/2:** 未能正确对齐字母和动物,跳过字母或合并磁贴(例如,将鲸鱼和 X 光鱼合并)。 * **GPT Image 2.0:** 完美执行了网格。这是任何模型首次在没有错误的情况下完成这一特定测试。 ### 10x10 对象网格 生成 100 个以字母“A”开头的对象: * **结果:** 大部分准确。小问题包括将“jack”(杰克/千斤顶)与“answering machine”(应答机)混淆,并将“aubergine”(茄子)和“eggplant”(茄子)视为不同物品(尽管在验证时正确识别它们为同一事物)。尽管存在小故障,但表现非常令人印象深刻。 ### 报纸布局 生成了一份宣布 GPT Images 2 发布的报纸。布局稳健,周围文本准确。Nano Banana 通常在没有明确提供的情况下难以生成合理的填充文本。 ### 工程师的桌面 双显示器设置显示代码和文件夹结构(类似于 VS Code)。 * **细节:** 两个屏幕上的文本准确。放大笔记本电脑也显示了正确的文本和准确的模糊效果。 * **比较:** Nano Banana 的版本具有正确的“氛围”,但检查后发现文本是乱码。 ### 研究支持的图表 * **AI 视频模型架构:** 用户请求了一张关于领先 AI 视频模型背后架构差异的信息图。 * **过程:** 开启思考模式后,模型花费了 **7 分钟** 进行研究,引用公开来源并规划布局。 * **输出:** 生成的信息图详细且文本准确。发现了一个小错误(“emphasis”拼写错误),但总体上是完美的。 * **比较:** Nano Banana 的输出美观,但包含许多文本错误(例如,“Dolly Zoom”拼写错误,不正确的术语如“audio joint synthesis”)。 * **2026 丰田赛那(Toyota Sienna)信息图:** * **Nano Banana:** 完全错过了“Woodland Edition”(林地版)车型。错误地声称 LE 型号有 7 个座位(实际为 8 个),并声称 Limited 型号有天窗(规格表中未找到)。 * **GPT Image 2.0:** 包含了所有车型,提供了起售价,并且在验证过程中未发现事实错误。它生产出了更有用和准确的信息图。 * **新闻仪表盘:** 生成了一份当前新闻故事的情绪板/仪表盘(例如,森林狼对阵掘金比分:119-114)。虽然油价等小细节难以验证,但实时数据与视觉生成的集成令人印象深刻。 ### 叙事故事板 请求了一个 10 格的故事板,展示纸艺角色在纸镇火灾中幸存。 * **要求:** 场景编号、制作说明和一致的角色。 * **结果:** 叙事流程连贯(灾难 -> 重聚 -> 社区重建)。所有面板中的角色一致性完美,每个场景中都有高细节(例如,废墟中生长的花朵)。 ## 结论 GPT Image 2.0 是一个重大升级,使该工具对专业和商业应用更有用。其优势在于: 1. **文本准确度:** 在渲染复杂文本、演职员表和 UI 元素方面优于 Nano Banana。 2. **逻辑推理:** 能够处理复杂网格和逻辑约束(如字母动物测试)。 3. **研究集成:** 思考模式允许基于实时数据的事实核查、详细的信息图。 4. **美学控制:** 使用“photorealism”等关键词有助于微调视觉风格。 虽然 Nano Banana 在纯粹美学方面仍然强劲,但其处理文本和复杂逻辑的能力不足,使得 GPT Image 2.0 成为详细、信息丰富和文本密集型图像生成任务中更通用和可靠的选择。 来源:Futurepedia - Nano Banana Finally Dethroned. GPT-Image 2.0 FULLY tested (https://www.youtube.com/watch?v=twIW3pzBUCc)

相似文章

全新AI图像生成器碾压全场

YouTube AI Channels

OpenAI发布ChatGPT Images 2.0,新图像模型在11项真实场景测试中全面击败Google的Nano Banana Pro,测试涵盖动漫海报、UI截图、品牌画板与数据信息图,文字清晰可读,排版精准。

推出 Nano Banana Pro

Google DeepMind Blog

Google DeepMind 推出 Nano Banana Pro,这是一款基于 Gemini 3 Pro 打造的全新顶尖图像生成与编辑模型。该模型具备更出色的文本渲染能力、增强的世界知识整合能力以及高保真视觉能力,可在 Google 各产品中体验。

Nano Banana 2:将 Pro 级能力与闪电般的速度相结合

Google DeepMind Blog

Google DeepMind 发布 Nano Banana 2,这是一款图像生成模型,融合了 Nano Banana Pro 的先进能力与 Gemini Flash 的速度。该模型具备改进的主体一致性、精准的文字渲染能力,并已集成到 Gemini、Search 等 Google 产品中。