ChatGPT Images 2.0 的指令遵循能力
摘要
ChatGPT Images 2.0 新增布局规划阶段,可实现像素级精准摆放物体、在手中生成可读文字,并准确显示非常规时钟时间。
OpenAI 研究员 Jianfeng Wang 介绍了 ChatGPT Images 2.0 如何在高细节提示中精准遵循指令,尤其在空间布局和文字渲染方面表现突出。
查看缓存全文
缓存时间: 2026/04/22 02:26
TL;DR:ChatGPT Images 2.0 先想象空间布局,再把你指定的每个物体、每个字母精准落位,让肩平视角的杂志大片、冷门钟面时间都能像素级还原。
## 从想象到像素级布局
OpenAI 研究员王建峰点出升级核心:模型必须先“脑补”整体构图,再挨个元素精确定位。这套“两步走”的内心草图,让 ChatGPT Images 2.0 面对又长又挑剔的提示也不会跑偏。
## 杂志级文字渲染
### 肩平视角挑战
提示:*“一张杂志风文字艺术照,从女性肩高拍摄。她用右手托着单词 ‘the’,左手托着单词 ‘view’。”*
旧模型很难在保持肩平构图的同时,把清晰文字贴到指定手心。新版先加载再输出,两只抬起的掌心出现锐利字母,保留 glossy 杂志感。
## 钟面显示正确时间
### 打破 10:10 魔咒
旧习惯:几乎所有生成钟表都显示 10:10,因为广告数据集过度代表这张“笑脸”。
新表现:用户要 2:25、2:30、9:10、7:45,时针分针角度全部精准对应。无论模拟、数字还是复古钟款,进步肉眼可见。
## 二维空间里的物体排布
### 提示拆解
*“把苹果放正中心,马克杯紧贴右侧,书在杯子正上方,相机放左侧,篮球在苹果下方。”*
模型先默默“思考”,再输出一张图,所有物品的相对位置分毫不差。王称这是指令遵循的“巨大飞跃”。
## 结论
通过内部布局规划阶段,ChatGPT Images 2.0 把用户意图与生成像素之间的鸿沟大幅收窄——不管你要的是手心里的单词、非标准钟点,还是分毫不差的静物摆盘。
来源:OpenAI 于 YouTube (https://www.youtube.com/watch?v=EcP7bzNAEn0)
相似文章
ChatGPT Images 2.0 的长宽比与分辨率
ChatGPT 升级的 Imagen 2.0 模型取消了固定长宽比限制,并将最高分辨率翻倍至 2K,可生成清晰的海报、全景图和带微距文字的图片。
ChatGPT Images 2.0 实现多语言与文字渲染
ChatGPT Images 2.0 现已能在保持艺术风格的同时,以海报级分辨率准确渲染包括中文、韩文、日文和孟加拉语在内的密集多语言文本。
Image 2.0 现已在 ChatGPT 上线,效果令人叹为观止!就在几天前,连 3x3 的网格布局都经常出错,而现在复杂度提升了 10 倍,效果几乎完美!
Image 2.0 已在 ChatGPT 上正式推出,带来了大幅提升的图像生成能力。此次更新支持处理更复杂的构图,复杂度较之前的网格布局提升了 10 倍,且效果近乎完美。
用 ChatGPT Images 2.0 一键生成幻灯片与信息图
开启“思考”模式的 ChatGPT Images 2.0,能把 1,000 字提示或 70 页 PDF 直接变成可立即使用的信息图、幻灯片及学术海报,无需手动调整。
使用ChatGPT创建图像
OpenAI关于使用ChatGPT通过文本提示生成和编辑图像的指南,涵盖编写有效提示的最佳实践和迭代优化技巧。