Inside image generation’s Renaissance moment — the OpenAI Podcast Ep. 19

YouTube AI Channels 模型

摘要

OpenAI研究员Kenji Hata与产品负责人Adele Li在播客中详解ImageGen 2.0的重大升级,包括文本渲染、多语言支持、照片级真实感以及360度全景图等涌现能力,发布两周内使用量增长超50%,每周在ChatGPT上生成超15亿张图像。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/14 18:40

**TL;DR:** OpenAI 研究员 Kenji Hata 与产品负责人 Adele Li 在播客中详解 ImageGen 2.0:从文本渲染、多语言支持到照片级真实感的全面飞跃,以及用户如何用它创造从全景漫游到“微软画图”风格的病毒式内容。 ## 从 DALL-E 到 ImageGen 2.0:文艺复兴式的飞跃 如果说 DALL-E 是石器时代,那么 ImageGen 2.0 就是文艺复兴。它不仅艺术性和美感出众,还能将科学、艺术、建筑等融合在一幅图像中。团队审视后认为,这确实比 ImageGen 1 更出色。发布后两周内使用量增长超 50%,每周在 ChatGPT 上生成的图像超过 15 亿张。 ## 产品与研发背景 ### Adele Li:从投资到产品 Adele 加入 OpenAI 两年多,此前在私募股权和红点风险投资公司工作三年,投资 AI 和软件公司。最初负责数据和计算基础设施,后转向产品侧,过去六个月专注于 ImageGen 的工作。她认为产品经理的职责就是做好需要完成的工作,而 ImageGen 让她能与研究员合作、思考市场空白与机会——当前市场与一年前发布 ImageGen 1.0 时已截然不同,多个图像生成工具并存,ChatGPT 本身也在演进。 ### Kenji Hata:从音频到图像 Kenji 大约两年前加入 OpenAI,最初做音频项目,后来逐渐参与 ImageGen 1.0 发布前的工作,最终全职投入图像生成。他提到内部评估时,早期检查点采样的图像与 ImageGen 1 对比,照片级真实感的巨大飞跃令人印象深刻——从光滑、理想化的杂志封面风格,变成真正看起来很好的照片。 ## 模型能力的阶梯式突破 ### 文本渲染与多语言支持 ImageGen 2.0 在多个维度实现改进: - **文本渲染**:页面上文本的保真度大幅提升,文字有意义、拼写正确。 - **多语言支持**:特别致力于支持多种语言,亚洲和欧洲用户反响热烈。 - **照片级真实感**:针对先前模型输出不够真实、改变用户脸部或身体的反馈,目标让图像感觉更像用户自己。 模型之所以能做到这些,是因为吸收了世界知识,并能以视觉方式回馈给用户。 ### 变量绑定与对象计数 从 DALL-E 3 到 GPT Image 1,生成随机物体网格的数量从 5~8 个提升到约 16 个;Image 1.5 稳定做到 25~36 个;ImageGen 2.0 可能轻松超过 100 个。内部常用测试:让 GPT 列出 100 个随机物体,传给图像生成器,几乎能全部正确生成。 ### 涌现能力:360 度全景图 模型能够以任何宽高比渲染图像,人们生成了非常长、惊艳的全景图,以及细长的书签。通过 360 度风格渲染,可以在 360 度世界里查看这些图像。该功能已集成到 ChatGPT 网页版和移动端。 ## 用户用例与病毒式趋势 ### 生产力与创意并存 过去图像生成常被认为用于娱乐和非生产力场景,但现在确实看到了生产力方面的进步——信息图、文本质量大幅提升,带来更多生产力用例。人们用模型制作有趣的表情包、给五岁小孩看的图像、专业咨询演示文稿,以及将流行照片改成粗糙的微软画图版。创造不完美的东西实际上需要很高的智能,用户追求真实性、不完美和怀旧感。 ### 自我表达的新方式 通过 AI 进行自我表达是团队非常兴奋的方向。模型对美学美感的理解在不同输出中表现优秀,输出机会大幅扩展,很多用例甚至超出团队预期。 ## 模型效率与后训练 ### 速度与 token 效率 从 DALL-E 时代“告诉我们你想要什么,一小时后才能看结果”进化到 ChatGPT 中的实时生成,团队在每次发布中学习如何让模型用更少的 token 生成非常好的图像。后训练过程不仅考虑世界知识、科学概念、数学等在图像中的呈现,还要思考什么样的品味能引起用户共鸣,如何让输出美丽、逼真。 ### Kenji 的个人基准测试 Kenji 常用的测试是“网格测试”:让模型生成 100 个随机物体的网格,几乎全部正确。他还提到曾让早期模型 Ada、Babbage、Curie 列出 100 本科幻小说,有的模型到 22 本就开始重复,以此衡量能力边界。 ### Adele 的个人评估 Adele 有自己的“我我我”评估:100 张自己、朋友和家人的照片,把每个人放在搞笑姿势里,几乎给每个人都准备卡片或生日图。她认为这是很好的测试,因为最熟悉周围人的面孔,同时也测试 ChatGPT 是否理解上下文:是否记得用户有兄弟、父母、他们的喜好,并在图像中融入个性化元素。 --- **Source:** https://www.youtube.com/watch?v=bH2nP-aCFjk

相似文章

这就是 ChatGPT Images 2.0

YouTube AI Channels

OpenAI 发布 Imagen 2.0,这款 AI 图像生成器可以联网、推理、精准渲染文字,并一次性输出多张 2K 分辨率的多语言图像。

GPT-Image-2 正式推出

Reddit r/singularity

OpenAI 正在推出 GPT-Image-2,这是一款全新的图像生成模型,标志着其图像生成能力的重大升级。