Inside image generation’s Renaissance moment — the OpenAI Podcast Ep. 19

YouTube AI Channels 模型

image-generation openai text-to-image multilingual 360-panorama product-update podcast

摘要

OpenAI研究员Kenji Hata与产品负责人Adele Li在播客中详解ImageGen 2.0的重大升级，包括文本渲染、多语言支持、照片级真实感以及360度全景图等涌现能力，发布两周内使用量增长超50%，每周在ChatGPT上生成超15亿张图像。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/14 18:40

**TL;DR:** OpenAI 研究员 Kenji Hata 与产品负责人 Adele Li 在播客中详解 ImageGen 2.0：从文本渲染、多语言支持到照片级真实感的全面飞跃，以及用户如何用它创造从全景漫游到“微软画图”风格的病毒式内容。 ## 从 DALL-E 到 ImageGen 2.0：文艺复兴式的飞跃如果说 DALL-E 是石器时代，那么 ImageGen 2.0 就是文艺复兴。它不仅艺术性和美感出众，还能将科学、艺术、建筑等融合在一幅图像中。团队审视后认为，这确实比 ImageGen 1 更出色。发布后两周内使用量增长超 50%，每周在 ChatGPT 上生成的图像超过 15 亿张。 ## 产品与研发背景 ### Adele Li：从投资到产品 Adele 加入 OpenAI 两年多，此前在私募股权和红点风险投资公司工作三年，投资 AI 和软件公司。最初负责数据和计算基础设施，后转向产品侧，过去六个月专注于 ImageGen 的工作。她认为产品经理的职责就是做好需要完成的工作，而 ImageGen 让她能与研究员合作、思考市场空白与机会——当前市场与一年前发布 ImageGen 1.0 时已截然不同，多个图像生成工具并存，ChatGPT 本身也在演进。 ### Kenji Hata：从音频到图像 Kenji 大约两年前加入 OpenAI，最初做音频项目，后来逐渐参与 ImageGen 1.0 发布前的工作，最终全职投入图像生成。他提到内部评估时，早期检查点采样的图像与 ImageGen 1 对比，照片级真实感的巨大飞跃令人印象深刻——从光滑、理想化的杂志封面风格，变成真正看起来很好的照片。 ## 模型能力的阶梯式突破 ### 文本渲染与多语言支持 ImageGen 2.0 在多个维度实现改进： - **文本渲染**：页面上文本的保真度大幅提升，文字有意义、拼写正确。 - **多语言支持**：特别致力于支持多种语言，亚洲和欧洲用户反响热烈。 - **照片级真实感**：针对先前模型输出不够真实、改变用户脸部或身体的反馈，目标让图像感觉更像用户自己。模型之所以能做到这些，是因为吸收了世界知识，并能以视觉方式回馈给用户。 ### 变量绑定与对象计数从 DALL-E 3 到 GPT Image 1，生成随机物体网格的数量从 5~8 个提升到约 16 个；Image 1.5 稳定做到 25~36 个；ImageGen 2.0 可能轻松超过 100 个。内部常用测试：让 GPT 列出 100 个随机物体，传给图像生成器，几乎能全部正确生成。 ### 涌现能力：360 度全景图模型能够以任何宽高比渲染图像，人们生成了非常长、惊艳的全景图，以及细长的书签。通过 360 度风格渲染，可以在 360 度世界里查看这些图像。该功能已集成到 ChatGPT 网页版和移动端。 ## 用户用例与病毒式趋势 ### 生产力与创意并存过去图像生成常被认为用于娱乐和非生产力场景，但现在确实看到了生产力方面的进步——信息图、文本质量大幅提升，带来更多生产力用例。人们用模型制作有趣的表情包、给五岁小孩看的图像、专业咨询演示文稿，以及将流行照片改成粗糙的微软画图版。创造不完美的东西实际上需要很高的智能，用户追求真实性、不完美和怀旧感。 ### 自我表达的新方式通过 AI 进行自我表达是团队非常兴奋的方向。模型对美学美感的理解在不同输出中表现优秀，输出机会大幅扩展，很多用例甚至超出团队预期。 ## 模型效率与后训练 ### 速度与 token 效率从 DALL-E 时代“告诉我们你想要什么，一小时后才能看结果”进化到 ChatGPT 中的实时生成，团队在每次发布中学习如何让模型用更少的 token 生成非常好的图像。后训练过程不仅考虑世界知识、科学概念、数学等在图像中的呈现，还要思考什么样的品味能引起用户共鸣，如何让输出美丽、逼真。 ### Kenji 的个人基准测试 Kenji 常用的测试是“网格测试”：让模型生成 100 个随机物体的网格，几乎全部正确。他还提到曾让早期模型 Ada、Babbage、Curie 列出 100 本科幻小说，有的模型到 22 本就开始重复，以此衡量能力边界。 ### Adele 的个人评估 Adele 有自己的“我我我”评估：100 张自己、朋友和家人的照片，把每个人放在搞笑姿势里，几乎给每个人都准备卡片或生日图。她认为这是很好的测试，因为最熟悉周围人的面孔，同时也测试 ChatGPT 是否理解上下文：是否记得用户有兄弟、父母、他们的喜好，并在图像中融入个性化元素。 --- **Source:** https://www.youtube.com/watch?v=bH2nP-aCFjk

Inside image generation’s Renaissance moment — the OpenAI Podcast Ep. 19

相似文章

@OpenAI：用户每周在ChatGPT中生成超过15亿张图片。研究员@kenjihata与产品负责人@adele__li及…

这就是 ChatGPT Images 2.0

@OpenAI：是什么让 ChatGPT Images 2.0 成为最先进的图像生成模型？背后的研究人员亲自解释。串推……

@OpenAI：由 ChatGPT Images 2.0 生成

GPT-Image-2 正式推出

提交意见反馈