ChatGPT Images 2.0 的指令遵循能力

YouTube AI Channels 模型

摘要

ChatGPT Images 2.0 新增布局规划阶段,可实现像素级精准摆放物体、在手中生成可读文字,并准确显示非常规时钟时间。

OpenAI 研究员 Jianfeng Wang 介绍了 ChatGPT Images 2.0 如何在高细节提示中精准遵循指令,尤其在空间布局和文字渲染方面表现突出。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/22 02:26

TL;DR:ChatGPT Images 2.0 先想象空间布局,再把你指定的每个物体、每个字母精准落位,让肩平视角的杂志大片、冷门钟面时间都能像素级还原。 ## 从想象到像素级布局 OpenAI 研究员王建峰点出升级核心:模型必须先“脑补”整体构图,再挨个元素精确定位。这套“两步走”的内心草图,让 ChatGPT Images 2.0 面对又长又挑剔的提示也不会跑偏。 ## 杂志级文字渲染 ### 肩平视角挑战 提示:*“一张杂志风文字艺术照,从女性肩高拍摄。她用右手托着单词 ‘the’,左手托着单词 ‘view’。”* 旧模型很难在保持肩平构图的同时,把清晰文字贴到指定手心。新版先加载再输出,两只抬起的掌心出现锐利字母,保留 glossy 杂志感。 ## 钟面显示正确时间 ### 打破 10:10 魔咒 旧习惯:几乎所有生成钟表都显示 10:10,因为广告数据集过度代表这张“笑脸”。 新表现:用户要 2:25、2:30、9:10、7:45,时针分针角度全部精准对应。无论模拟、数字还是复古钟款,进步肉眼可见。 ## 二维空间里的物体排布 ### 提示拆解 *“把苹果放正中心,马克杯紧贴右侧,书在杯子正上方,相机放左侧,篮球在苹果下方。”* 模型先默默“思考”,再输出一张图,所有物品的相对位置分毫不差。王称这是指令遵循的“巨大飞跃”。 ## 结论 通过内部布局规划阶段,ChatGPT Images 2.0 把用户意图与生成像素之间的鸿沟大幅收窄——不管你要的是手心里的单词、非标准钟点,还是分毫不差的静物摆盘。 来源:OpenAI 于 YouTube (https://www.youtube.com/watch?v=EcP7bzNAEn0)

相似文章

ChatGPT Images 2.0 的长宽比与分辨率

YouTube AI Channels

ChatGPT 升级的 Imagen 2.0 模型取消了固定长宽比限制,并将最高分辨率翻倍至 2K,可生成清晰的海报、全景图和带微距文字的图片。

使用ChatGPT创建图像

OpenAI Blog

OpenAI关于使用ChatGPT通过文本提示生成和编辑图像的指南,涵盖编写有效提示的最佳实践和迭代优化技巧。