Image GPT

OpenAI Blog 2020/06/17 07:00 模型

image-generation transformer unsupervised-learning gpt-2 computer-vision generative-model

摘要

OpenAI的Image GPT（iGPT）将GPT-2 Transformer应用于像素序列，用于图像生成和分类。它展示了用于语言处理的相同架构能够以无监督的方式学习连贯的视觉特征，并在图像分类基准测试中实现具有竞争力的性能。

我们发现，正如在语言上训练的大型Transformer模型能够生成连贯的文本一样，用像素序列训练的相同模型也能生成连贯的图像补全和样本。通过建立样本质量与图像分类准确度之间的关联，我们展示了最佳生成模型在无监督设置中包含与顶级卷积网络具有竞争力的特征。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/04/20 14:55

# Image GPT 来源：https://openai.com/index/image-gpt/ 我们发现，就像在语言上训练的大型 Transformer 模型能够生成连贯的文本一样，在像素序列上训练的相同模型也能够生成连贯的[图像补全](https://openai.com/index/image-gpt/#completions)和[样本](https://openai.com/index/image-gpt/#samples)。通过建立样本质量与图像分类准确率之间的关联，我们证明了我们最好的生成模型也包含了在无监督设置中与顶级卷积网络竞争的特征。无监督和自监督学习，1 或不依赖人工标注数据的学习，是机器学习中一个长期存在的挑战。最近，它在语言领域取得了令人瞩目的成功，像 BERT、GPT-2、RoBERTa、T5 和其他变体2等 Transformer 模型在广泛的语言任务上取得了顶级性能。然而，这一类模型在为图像分类生成强大特征方面还没有取得同样的成功。我们的工作旨在理解并缩小这一差距。 BERT 和 GPT-2 等 Transformer 模型与领域无关，这意味着它们可以直接应用于任何形式的一维序列。当我们在展开成长像素序列的图像上训练 GPT-2（我们称之为 iGPT）时，我们发现该模型似乎理解了二维图像特征，例如物体外观和类别。这一点通过模型生成的多样化连贯图像样本得到证明，即使没有人工标注标签的指导。进一步的证据表明，该模型的特征在多个分类数据集上取得了最先进的性能，并在 ImageNet 上取得了接近最先进的无监督准确率。为了突出生成序列建模作为一般目的无监督学习算法的潜力，我们故意使用与语言中 GPT-2 相同的 Transformer 架构。因此，为了生成与顶级无监督卷积网络竞争的特征，我们需要显著更多的计算资源。不过，我们的结果表明，当面对一个正确的模型先验未知的新领域时，大型 GPT-2 可以在无需特定领域架构设计的情况下学习优秀的特征。在语言中，依赖词预测（如 GPT-2 和 BERT）的无监督学习算法极其成功，在广泛的语言任务上取得了顶级性能。这一成功的一个可能原因是下游语言任务的实例自然出现在文本中：问题通常后面跟着答案（这可以帮助问答任务），段落通常后面跟着总结（这可以帮助总结任务）。相比之下，像素序列并不明确包含其所属图像的标签。即使没有这种明确的监督，GPT-2 在图像上仍然可能有效的原因是：一个足够大的 Transformer，在下一像素预测上训练，最终可能会学会生成具有清晰可识别物体的多样化样本。一旦它学会这样做，一个称为"通过合成分析"的想法表明该模型也将了解物体类别。许多早期生成模型都受这一想法的启发，最近，BigBiGAN 是一个产生了有希望的样本和特征的例子。在我们的工作中，我们首先证明更好的生成模型实现了更强的分类性能。然后，通过为生成能力优化 GPT-2，我们在许多设置中实现了顶级分类性能，为通过合成分析提供了进一步的证据。生成序列建模是一种通用的无监督学习算法：由于所有数据类型都可以表示为字节序列，Transformer 可以直接应用于任何数据类型，无需额外的工程。我们的工作通过直接将用于在自然语言上训练 GPT-2 的架构应用于图像生成来测试这种通用性的能力。我们故意选择不对卷积或相对注意力、稀疏注意力和二维位置嵌入等技术进行任何图像特定知识的硬编码。由于其通用性，我们的方法需要显著更多的计算来在无监督设置中实现竞争性性能。事实上，对比方法仍然是从图像中生成高质量特征最具计算效率的方法。但是，通过证明无监督 Transformer 模型与最好的无监督卷积网络相竞争，我们提供了证据表明可以用计算来弥补硬编码的领域知识。在新领域，没有太多知识可以硬编码，扩展计算似乎是一个合适的测试技术。我们在 ImageNet 上训练 iGPT-S、iGPT-M 和 iGPT-L，分别包含 76M、455M 和 1.4B 参数的 Transformer。我们还训练了 iGPT-XL，一个拥有 68 亿参数的 Transformer，在 ImageNet 和网络图像的混合上进行训练。由于用密集注意力建模长序列的计算成本很大，我们以 32x32、48x48 和 64x64 的低分辨率进行训练。虽然在更低分辨率下工作很诱人，以进一步降低计算成本，但之前的工作已经证明人类在图像分类上的性能在这些尺寸以下会迅速下降。相反，受早期彩色显示调色板的启发，我们创建了自己的 9 位彩色调色板来表示像素。使用这个调色板会将输入序列长度比标准（R、G、B）调色板短 3 倍，同时仍然能够忠实地编码颜色。我们使用两种方法来评估模型性能，两者都涉及下游分类任务。第一种方法称为线性探针，使用训练好的模型从下游数据集中的图像提取特征，然后对标签拟合逻辑回归。第二种方法在下游数据集上微调整个模型。由于下一像素预测与图像分类的关系并不明显，最后一层的特征可能不是最能预测物体类别的。我们的第一个结果显示特征质量是深度的快速增加然后温和递减的函数。这种行为表明 Transformer 生成模型分两个阶段运作：在第一阶段，每个位置从其周围上下文中收集信息以构建上下文化的图像特征。在第二阶段，这个上下文化特征被用来解决条件下一像素预测任务。我们观察到的线性探针的两阶段性能让人想起另一个无监督神经网络，瓶颈自动编码器，它被手动设计为在中间使用特征。我们的下一个结果建立了生成性能与特征质量之间的联系。我们发现增加模型的规模和训练更多迭代都会产生更好的生成性能，这直接转化为更好的特征质量。当我们在 CIFAR-10、CIFAR-100 和 STL-10 上使用线性探针评估我们的特征时，我们超越了所有有监督和无监督转移算法的特征。我们的结果在完整微调设置中也很有说服力。我们的模型与利用无监督或有监督 ImageNet 转移的顶级执行模型之间线性探针和微调准确率的比较。我们还包括 AutoAugment，在 CIFAR 上端到端训练的最佳执行模型。鉴于人们对 ImageNet 上无监督和自监督学习的兴趣重新兴起，我们也使用线性探针在 ImageNet 上评估我们模型的性能。这是一个特别困难的设置，因为我们不是在标准 ImageNet 输入分辨率下训练的。尽管如此，对在 48x48 图像上训练的 iGPT-L 最好层的 1536 个特征的线性探针产生了 65.2% 的顶一准确率，超越了 AlexNet。对比方法通常报告其在 8192 个特征上的最佳结果，因此理想情况下，我们会用 8192 的嵌入维度评估 iGPT 进行比较。但是，训练这样的模型成本高得令人无法接受，所以我们改为从多个层连接特征作为近似。不幸的是，我们的特征往往在层间相关，所以我们需要更多它们才能具有竞争力。从 iGPT-XL 的 5 层中提取 15360 个特征产生了 72.0% 的顶一准确率，超越了 AMDIM、MoCo 和 CPC v2，但仍然明显低于 SimCLR。我们的模型与最先进的自监督模型之间线性探针准确率的比较。我们在训练更低输入分辨率的同时实现了竞争性性能，但我们的方法需要更多参数和计算。因为像 BERT 这样的掩码语言模型在大多数语言任务上的表现超过了生成模型，我们也评估了 BERT 在我们图像模型上的性能。与训练模型以从所有前面的像素预测下一个像素不同，我们掩盖 15% 的像素并训练模型从未掩盖的像素预测它们。我们发现，尽管 BERT 模型的线性探针性能明显更差，但它们在微调中表现出众：虽然无监督学习承诺在不需要人工标注数据的情况下获得优秀特征，但在更宽松的半监督学习框架下最近取得了重大进展，该框架允许有限数量的人工标注数据。成功的半监督方法往往依赖于聪明的技术，如一致性正则化、数据增强或伪标签，而纯粹基于生成的方法多年来都没有竞争力。我们在这个子领域的竞争基准上评估 iGPT-L，发现对非增强图像特征的简单线性探针超过了 Mean Teacher 和 MixMatch，尽管它低于 FixMatch。在低数据 CIFAR-10 上的性能比较。通过利用许多未标注的 ImageNet 图像，iGPT-L 能够超越 Mean Teacher 和 MixMatch 等方法，但仍然低于最先进的方法。我们对半监督学习的方法非常简单，因为我们只在 iGPT-L 的特征上拟合逻辑回归分类器，而不进行任何数据增强或微调——这与专门设计的半监督方法有显著差异。虽然我们已经证明了 iGPT 能够学习强大的图像特征，但我们的方法仍然存在重大局限。因为我们使用了在语言中用于 GPT-2 的通用序列 Transformer，我们的方法需要大量计算：iGPT-L 在大约 2500 个 V100 天上进行了训练，而类似性能的 MoCo 模型可以在大约 70 个 V100 天内训练。相关地，我们使用 Transformer 建模低分辨率输入，而大多数自监督结果使用基于卷积的编码器，这些编码器可以轻松消耗高分辨率输入。可能需要一个新的架构，如领域无关的多尺度 Transformer，以进一步扩展。鉴于这些局限，我们的工作主要作为大型基于 Transformer 的语言模型能够在新领域中学习优秀无监督表示的能力的概念验证演示，无需硬编码的领域知识。但是，训练这些模型的巨大资源成本和基于卷积神经网络方法的更高准确率使这些表示不适合在视觉领域中的实际应用。最后，生成模型可以表现出偏差

相似文章

GPT-Image-2 正式推出

Reddit r/singularity

OpenAI 正在推出 GPT-Image-2，这是一款全新的图像生成模型，标志着其图像生成能力的重大升级。

推介我们最新的API图像生成模型

OpenAI Blog

# 推介我们最新的API图像生成模型来源：[https://openai.com/index/image-generation-api/](https://openai.com/index/image-generation-api/) OpenAI上月在ChatGPT中推出图像生成功能后，它迅速成为我们最受欢迎的功能之一：全球超过1.3亿用户在短短[一周内⁠\(在新窗口中打开\)](https://www.linkedin.com/posts/bradlightcap_very-crazy-first-week-for-images-in-chatgpt-acti)创建了超过7亿张图像

Image GPT

相似文章

GPT-Image-2 正式推出

推介我们最新的API图像生成模型

推出 4o 图像生成功能

这就是 ChatGPT Images 2.0

GPT Image 2 实现史上最大画质飞跃

提交意见反馈