开启“思考”后,ChatGPT Images 2.0 的智能表现

YouTube AI Channels 模型

摘要

在启用“思考”功能后,ChatGPT Images 2.0 可自主搜索网络、收集事实与价格信息,并在一个提示中合成多页、符合品牌调性的视觉故事。

OpenAI 研究员 Ayaan Haque 展示了当“思考”开启时,ChatGPT Images 2.0 的强大能力。它能够在网络上研究主题,处理开放式提示,并……
查看原文
查看缓存全文

缓存时间: 2026/04/22 02:27

TL;DR:开启“思考”模式后,ChatGPT Images 2.0 可自主检索网页、收集事实、比价商品,并合成多页、符合品牌调性的视觉故事。 ## 从提示到自主调研 OpenAI 研究员 Ian Haque 展示了最新图像模型(内部代号“Image 2”)在打开“思考”开关后的表现。它不再只依赖训练权重,而是: 1. 实时搜索网页 2. 收集参考图 3. 提取价格、日期等事实 4. 输出一套视觉统一、前后连贯的作品 Ian 将其升级形容为“从工具到协作者”,能端到端完成过去需要多款应用加人工介入的创意任务。 ## 示例 1:搜罗稀有 OpenAI 周边 提示: > “生成一张广告,展示你能找到的最新 OpenAI 周边;聚焦最稀有的款式。做一张写实产品渲染海报,并调研每件单品的大致转售价。” 执行流程: - 模型检索二手交易平台与社区论坛 - 锁定限量款:2018 年抓绒、2021 年帆布托特、2023 年针织冷帽 - 抓取或估算转卖价(如“抓绒约 220 美元,托特 95 美元”) - 用 OpenAI 品牌色(#00A0E1、黑、白)及定制字体排版,合成一张海报 交付物:一张高分辨率“生活方式”海报,每件产品下方附小价签,底部脚注访问过的来源。 ## 示例 2:大学级牛顿主题信息图包 提示: > “做一套多页、大学水平的信息图,总结并可视化牛顿在数理领域的主要贡献。” 执行流程: - 模型从教育站点抓取发表年份、公式与历史背景 - 自定页面层级:(1) 运动定律,(2) 微积分之争,(3) 光学,(4) 遗产 - 设计统一视觉:淡 parchment 背景、衬线标题、手绘矢量图标 - 导出 5 张 PNG,可直接插入幻灯或打印 关键事实:Principia 出版年(1687)、莱布尼茨通信时间线、反射望远镜焦距(6 英寸)、积分符号对比表。 ## 示例 3:社交媒体审美时光胶囊 提示: > “研究 2006、2016、2026 年社交平台的摄影审美与潮流,并分页呈现。” 执行流程: - 模型检索趋势报告、平台博客与图片档案 - 2006 页:低分辨率数码相机、闪光灯对镜自拍、棕褐滤镜 - 2016 页:俯拍平铺、VSCO 低饱和滤镜、“流浪癖”视觉 - 2026 页:预测 AI 生成背景、超现实调色、9:16 竖屏主导 - 输出三张情绪板,每页含示例图、配色卡与简短分析 Ian 指出,该任务“开放而非事实检索”,需模型从图文里解读定性“氛围”。 ## 关键技术行为 - 按需联网,模型在行内标注 URL - 思考时长随提示复杂度线性增长——简单请求约 10 秒,多页调研可达 60 秒 - 通过潜空间风格令牌锁定颜色、字体与插画风格,确保整套视觉一致 - 若数据稀疏,价格或日期估算旁会显示小置信度条 ## 对教育、营销与战略工作的实际意义 教师可一键生成教科书级讲义包。 营销人可产出已含竞品的品牌广告。 战略师可一次拿到融合数据与视觉叙事趋势报告。 ## 结语 Ian 总结此次更新:“一次提示即可回答复杂问题,也愿意花更久思考。”目标是把 Image 2 当成队友,让它既跑腿又精修。 来源:https://www.youtube.com/watch?v=JJgwiuu-Axw

相似文章

ChatGPT Images 2.0

Product Hunt

OpenAI 发布 ChatGPT Images 2.0,首款具备思考能力的图像模型,可在视觉任务中实现更强推理。

这就是 ChatGPT Images 2.0

YouTube AI Channels

OpenAI 发布 Imagen 2.0,这款 AI 图像生成器可以联网、推理、精准渲染文字,并一次性输出多张 2K 分辨率的多语言图像。