Inside image generation’s Renaissance moment — the OpenAI Podcast Ep. 19
摘要
OpenAI研究员Kenji Hata与产品负责人Adele Li在播客中详解ImageGen 2.0的重大升级,包括文本渲染、多语言支持、照片级真实感以及360度全景图等涌现能力,发布两周内使用量增长超50%,每周在ChatGPT上生成超15亿张图像。
暂无内容
查看缓存全文
缓存时间: 2026/05/14 18:40
**TL;DR:** OpenAI 研究员 Kenji Hata 与产品负责人 Adele Li 在播客中详解 ImageGen 2.0:从文本渲染、多语言支持到照片级真实感的全面飞跃,以及用户如何用它创造从全景漫游到“微软画图”风格的病毒式内容。
## 从 DALL-E 到 ImageGen 2.0:文艺复兴式的飞跃
如果说 DALL-E 是石器时代,那么 ImageGen 2.0 就是文艺复兴。它不仅艺术性和美感出众,还能将科学、艺术、建筑等融合在一幅图像中。团队审视后认为,这确实比 ImageGen 1 更出色。发布后两周内使用量增长超 50%,每周在 ChatGPT 上生成的图像超过 15 亿张。
## 产品与研发背景
### Adele Li:从投资到产品
Adele 加入 OpenAI 两年多,此前在私募股权和红点风险投资公司工作三年,投资 AI 和软件公司。最初负责数据和计算基础设施,后转向产品侧,过去六个月专注于 ImageGen 的工作。她认为产品经理的职责就是做好需要完成的工作,而 ImageGen 让她能与研究员合作、思考市场空白与机会——当前市场与一年前发布 ImageGen 1.0 时已截然不同,多个图像生成工具并存,ChatGPT 本身也在演进。
### Kenji Hata:从音频到图像
Kenji 大约两年前加入 OpenAI,最初做音频项目,后来逐渐参与 ImageGen 1.0 发布前的工作,最终全职投入图像生成。他提到内部评估时,早期检查点采样的图像与 ImageGen 1 对比,照片级真实感的巨大飞跃令人印象深刻——从光滑、理想化的杂志封面风格,变成真正看起来很好的照片。
## 模型能力的阶梯式突破
### 文本渲染与多语言支持
ImageGen 2.0 在多个维度实现改进:
- **文本渲染**:页面上文本的保真度大幅提升,文字有意义、拼写正确。
- **多语言支持**:特别致力于支持多种语言,亚洲和欧洲用户反响热烈。
- **照片级真实感**:针对先前模型输出不够真实、改变用户脸部或身体的反馈,目标让图像感觉更像用户自己。
模型之所以能做到这些,是因为吸收了世界知识,并能以视觉方式回馈给用户。
### 变量绑定与对象计数
从 DALL-E 3 到 GPT Image 1,生成随机物体网格的数量从 5~8 个提升到约 16 个;Image 1.5 稳定做到 25~36 个;ImageGen 2.0 可能轻松超过 100 个。内部常用测试:让 GPT 列出 100 个随机物体,传给图像生成器,几乎能全部正确生成。
### 涌现能力:360 度全景图
模型能够以任何宽高比渲染图像,人们生成了非常长、惊艳的全景图,以及细长的书签。通过 360 度风格渲染,可以在 360 度世界里查看这些图像。该功能已集成到 ChatGPT 网页版和移动端。
## 用户用例与病毒式趋势
### 生产力与创意并存
过去图像生成常被认为用于娱乐和非生产力场景,但现在确实看到了生产力方面的进步——信息图、文本质量大幅提升,带来更多生产力用例。人们用模型制作有趣的表情包、给五岁小孩看的图像、专业咨询演示文稿,以及将流行照片改成粗糙的微软画图版。创造不完美的东西实际上需要很高的智能,用户追求真实性、不完美和怀旧感。
### 自我表达的新方式
通过 AI 进行自我表达是团队非常兴奋的方向。模型对美学美感的理解在不同输出中表现优秀,输出机会大幅扩展,很多用例甚至超出团队预期。
## 模型效率与后训练
### 速度与 token 效率
从 DALL-E 时代“告诉我们你想要什么,一小时后才能看结果”进化到 ChatGPT 中的实时生成,团队在每次发布中学习如何让模型用更少的 token 生成非常好的图像。后训练过程不仅考虑世界知识、科学概念、数学等在图像中的呈现,还要思考什么样的品味能引起用户共鸣,如何让输出美丽、逼真。
### Kenji 的个人基准测试
Kenji 常用的测试是“网格测试”:让模型生成 100 个随机物体的网格,几乎全部正确。他还提到曾让早期模型 Ada、Babbage、Curie 列出 100 本科幻小说,有的模型到 22 本就开始重复,以此衡量能力边界。
### Adele 的个人评估
Adele 有自己的“我我我”评估:100 张自己、朋友和家人的照片,把每个人放在搞笑姿势里,几乎给每个人都准备卡片或生日图。她认为这是很好的测试,因为最熟悉周围人的面孔,同时也测试 ChatGPT 是否理解上下文:是否记得用户有兄弟、父母、他们的喜好,并在图像中融入个性化元素。
---
**Source:** https://www.youtube.com/watch?v=bH2nP-aCFjk
相似文章
@OpenAI:用户每周在ChatGPT中生成超过15亿张图片。研究员@kenjihata与产品负责人@adele__li及…
OpenAI宣布,用户每周在ChatGPT中生成超过15亿张图片,一档播客节目讨论了自Images 2.0发布以来出现的新用例和趋势。
这就是 ChatGPT Images 2.0
OpenAI 发布 Imagen 2.0,这款 AI 图像生成器可以联网、推理、精准渲染文字,并一次性输出多张 2K 分辨率的多语言图像。
@OpenAI:是什么让 ChatGPT Images 2.0 成为最先进的图像生成模型?背后的研究人员亲自解释。串推……
OpenAI 研究人员解读 ChatGPT Images 2.0 成为顶尖图像生成模型的关键突破,重点展示其“思考”与智能能力。
@OpenAI:由 ChatGPT Images 2.0 生成
OpenAI 发布 ChatGPT Images 2.0,这是 ChatGPT 内图像生成功能的升级版本。
GPT-Image-2 正式推出
OpenAI 正在推出 GPT-Image-2,这是一款全新的图像生成模型,标志着其图像生成能力的重大升级。