开启“思考”后,ChatGPT Images 2.0 的智能表现
摘要
在启用“思考”功能后,ChatGPT Images 2.0 可自主搜索网络、收集事实与价格信息,并在一个提示中合成多页、符合品牌调性的视觉故事。
OpenAI 研究员 Ayaan Haque 展示了当“思考”开启时,ChatGPT Images 2.0 的强大能力。它能够在网络上研究主题,处理开放式提示,并……
查看缓存全文
缓存时间: 2026/04/22 02:27
TL;DR:开启“思考”模式后,ChatGPT Images 2.0 可自主检索网页、收集事实、比价商品,并合成多页、符合品牌调性的视觉故事。
## 从提示到自主调研
OpenAI 研究员 Ian Haque 展示了最新图像模型(内部代号“Image 2”)在打开“思考”开关后的表现。它不再只依赖训练权重,而是:
1. 实时搜索网页
2. 收集参考图
3. 提取价格、日期等事实
4. 输出一套视觉统一、前后连贯的作品
Ian 将其升级形容为“从工具到协作者”,能端到端完成过去需要多款应用加人工介入的创意任务。
## 示例 1:搜罗稀有 OpenAI 周边
提示:
> “生成一张广告,展示你能找到的最新 OpenAI 周边;聚焦最稀有的款式。做一张写实产品渲染海报,并调研每件单品的大致转售价。”
执行流程:
- 模型检索二手交易平台与社区论坛
- 锁定限量款:2018 年抓绒、2021 年帆布托特、2023 年针织冷帽
- 抓取或估算转卖价(如“抓绒约 220 美元,托特 95 美元”)
- 用 OpenAI 品牌色(#00A0E1、黑、白)及定制字体排版,合成一张海报
交付物:一张高分辨率“生活方式”海报,每件产品下方附小价签,底部脚注访问过的来源。
## 示例 2:大学级牛顿主题信息图包
提示:
> “做一套多页、大学水平的信息图,总结并可视化牛顿在数理领域的主要贡献。”
执行流程:
- 模型从教育站点抓取发表年份、公式与历史背景
- 自定页面层级:(1) 运动定律,(2) 微积分之争,(3) 光学,(4) 遗产
- 设计统一视觉:淡 parchment 背景、衬线标题、手绘矢量图标
- 导出 5 张 PNG,可直接插入幻灯或打印
关键事实:Principia 出版年(1687)、莱布尼茨通信时间线、反射望远镜焦距(6 英寸)、积分符号对比表。
## 示例 3:社交媒体审美时光胶囊
提示:
> “研究 2006、2016、2026 年社交平台的摄影审美与潮流,并分页呈现。”
执行流程:
- 模型检索趋势报告、平台博客与图片档案
- 2006 页:低分辨率数码相机、闪光灯对镜自拍、棕褐滤镜
- 2016 页:俯拍平铺、VSCO 低饱和滤镜、“流浪癖”视觉
- 2026 页:预测 AI 生成背景、超现实调色、9:16 竖屏主导
- 输出三张情绪板,每页含示例图、配色卡与简短分析
Ian 指出,该任务“开放而非事实检索”,需模型从图文里解读定性“氛围”。
## 关键技术行为
- 按需联网,模型在行内标注 URL
- 思考时长随提示复杂度线性增长——简单请求约 10 秒,多页调研可达 60 秒
- 通过潜空间风格令牌锁定颜色、字体与插画风格,确保整套视觉一致
- 若数据稀疏,价格或日期估算旁会显示小置信度条
## 对教育、营销与战略工作的实际意义
教师可一键生成教科书级讲义包。
营销人可产出已含竞品的品牌广告。
战略师可一次拿到融合数据与视觉叙事趋势报告。
## 结语
Ian 总结此次更新:“一次提示即可回答复杂问题,也愿意花更久思考。”目标是把 Image 2 当成队友,让它既跑腿又精修。
来源:https://www.youtube.com/watch?v=JJgwiuu-Axw
相似文章
ChatGPT Images 2.0
OpenAI 发布 ChatGPT Images 2.0,首款具备思考能力的图像模型,可在视觉任务中实现更强推理。
用 ChatGPT Images 2.0 一键生成幻灯片与信息图
开启“思考”模式的 ChatGPT Images 2.0,能把 1,000 字提示或 70 页 PDF 直接变成可立即使用的信息图、幻灯片及学术海报,无需手动调整。
这就是 ChatGPT Images 2.0
OpenAI 发布 Imagen 2.0,这款 AI 图像生成器可以联网、推理、精准渲染文字,并一次性输出多张 2K 分辨率的多语言图像。
@OpenAI:ChatGPT Images 2.0 今日起向所有 ChatGPT 与 Codex 用户开放
OpenAI 推出基于 gpt-image-2 的 ChatGPT Images 2.0,所有 ChatGPT 和 Codex 用户皆可体验;付费档位额外支持“带思考”图像生成功能。
@OpenAI:推出 ChatGPT Images 2.0——可应对复杂视觉任务、生成精准即用图像的顶尖图像模型
OpenAI 发布 ChatGPT Images 2.0,这一顶尖图像模型可处理复杂视觉任务,提供更精细的编辑、更丰富的排版,并融入思考级智能。