ChatGPT Images 2.0 的指令遵循能力

YouTube AI Channels 模型

摘要

ChatGPT Images 2.0 新增布局规划阶段，可实现像素级精准摆放物体、在手中生成可读文字，并准确显示非常规时钟时间。

OpenAI 研究员 Jianfeng Wang 介绍了 ChatGPT Images 2.0 如何在高细节提示中精准遵循指令，尤其在空间布局和文字渲染方面表现突出。

查看原文

查看缓存全文

缓存时间: 2026/04/22 02:26

TL;DR：ChatGPT Images 2.0 先想象空间布局，再把你指定的每个物体、每个字母精准落位，让肩平视角的杂志大片、冷门钟面时间都能像素级还原。 ## 从想象到像素级布局 OpenAI 研究员王建峰点出升级核心：模型必须先“脑补”整体构图，再挨个元素精确定位。这套“两步走”的内心草图，让 ChatGPT Images 2.0 面对又长又挑剔的提示也不会跑偏。 ## 杂志级文字渲染 ### 肩平视角挑战提示：*“一张杂志风文字艺术照，从女性肩高拍摄。她用右手托着单词 ‘the’，左手托着单词 ‘view’。”* 旧模型很难在保持肩平构图的同时，把清晰文字贴到指定手心。新版先加载再输出，两只抬起的掌心出现锐利字母，保留 glossy 杂志感。 ## 钟面显示正确时间 ### 打破 10:10 魔咒旧习惯：几乎所有生成钟表都显示 10:10，因为广告数据集过度代表这张“笑脸”。新表现：用户要 2:25、2:30、9:10、7:45，时针分针角度全部精准对应。无论模拟、数字还是复古钟款，进步肉眼可见。 ## 二维空间里的物体排布 ### 提示拆解 *“把苹果放正中心，马克杯紧贴右侧，书在杯子正上方，相机放左侧，篮球在苹果下方。”* 模型先默默“思考”，再输出一张图，所有物品的相对位置分毫不差。王称这是指令遵循的“巨大飞跃”。 ## 结论通过内部布局规划阶段，ChatGPT Images 2.0 把用户意图与生成像素之间的鸿沟大幅收窄——不管你要的是手心里的单词、非标准钟点，还是分毫不差的静物摆盘。来源：OpenAI 于 YouTube (https://www.youtube.com/watch?v=EcP7bzNAEn0)

ChatGPT Images 2.0 的指令遵循能力

相似文章

ChatGPT Images 2.0 的长宽比与分辨率

ChatGPT Images 2.0 实现多语言与文字渲染

Image 2.0 现已在 ChatGPT 上线，效果令人叹为观止！就在几天前，连 3x3 的网格布局都经常出错，而现在复杂度提升了 10 倍，效果几乎完美！

用 ChatGPT Images 2.0 一键生成幻灯片与信息图

使用ChatGPT创建图像

提交意见反馈