生成式模型

OpenAI Blog 新闻

摘要

OpenAI 发布了关于生成式模型的概览,将其作为开发机器理解世界的方法,解释了这些模型如何通过学习生成与训练集相似的数据来工作,以及它们在各个领域的潜在应用。

这篇文章介绍了四个项目,它们共同的主题是增强或使用生成式模型——机器学习中无监督学习技术的一个分支。除了介绍我们的工作外,这篇文章还将帮助你更深入地了解生成式模型:它们是什么、为什么重要,以及它们可能的发展方向。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:56

# 生成模型 来源:https://openai.com/index/generative-models/ OpenAI 本文介绍了四个共同主题为增强或使用生成模型的项目,生成模型是机器学习中无监督学习技术的一个分支。除了描述我们的工作外,本文还将向你介绍更多关于生成模型的知识:它们是什么、为什么重要,以及它们可能的发展方向。 OpenAI 的核心愿景之一是开发能赋予计算机理解世界的算法和技术。 你很容易忘记自己对世界的了解有多深:你理解世界由 3D 环境、运动和碰撞的物体、相互作用的事物组成;有行走、说话和思考的人类;有放牧、飞行、奔跑或叫喊的动物;有显示用语言编码的信息的显示器,关于天气、篮球比赛的胜者或 1970 年发生的事情。 这些巨大的信息量存在于世界各处,在很大程度上也很容易获取——要么在原子的物理世界中,要么在比特的数字世界中。唯一的困难是开发能够分析和理解这些数据宝库的模型和算法。 **生成模型是实现这一目标最有前景的方法之一**。要训练一个生成模型,我们首先在某个领域收集大量数据(例如,数百万张图像、句子或声音等),然后训练一个模型来生成类似的数据。这种方法的直觉基于理查德·费曼(Richard Feynman)的一句名言: > "我不能创造的东西,我就不理解。" 理查德·费曼 诀窍在于我们用作生成模型的神经网络的参数数量远小于我们用来训练它的数据量,因此模型被迫发现并有效地内化数据的本质以生成它。 生成模型有许多短期应用。但从长远来看,它们有可能自动学习数据集的自然特征,无论是类别、维度还是其他完全不同的东西。 让我们用一个例子来具体说明。假设我们有一个大型图像集合,比如 ImageNet 数据集中的 120 万张图像(但请记住,这最终可能是来自互联网或机器人的大量图像或视频)。如果我们将每张图像的宽度和高度调整为 256(这是常见做法),我们的数据集就是一个大的 `1,200,000x256x256x3`(约 200GB)的像素块。以下是这个数据集中的一些示例图像: 生成模型 这些图像是我们视觉世界的样子,我们称这些为"真实数据分布的样本"。现在我们构建生成模型,希望训练它从零开始生成像这样的图像。具体来说,这种情况下的生成模型可以是输出图像的一个大型神经网络,我们称这些为"来自模型的样本"。 生成模型图表 1 DCGAN 用随机权重初始化,所以输入随机代码到网络中会生成一个完全随机的图像。然而,正如你可能想象的那样,网络有数百万个参数我们可以调整,目标是找到一个参数设置,使得从随机代码生成的样本看起来像训练数据。或者换句话说,我们希望模型分布与真实数据分布在图像空间中相匹配。 假设我们用新初始化的网络生成 200 张图像,每次从不同的随机代码开始。问题是:我们应该如何调整网络的参数来鼓励它在未来生成略微更逼真的样本?注意,我们不在简单的监督学习设置中,也没有为我们的 200 张生成图像提供任何明确的*期望目标*;我们只希望它们看起来真实。一个巧妙的解决这个问题的方法是遵循生成对抗网络 (GAN) 方法。这里我们引入第二个*判别器*网络(通常是标准卷积神经网络),它试图将输入图像分类为真实或生成的。例如,我们可以将 200 张生成图像和 200 张真实图像输入判别器,并将其作为标准分类器进行训练以区分这两个来源。但除此之外——这是诀窍——我们还可以通过判别器和生成器进行反向传播,以找到应该如何改变生成器的参数使其 200 个样本对判别器稍微更令人困惑。这两个网络因此陷入了一场战争:判别器试图区分真实和虚假图像,生成器试图创建让判别器认为是真实的图像。最终,生成器网络输出的图像对判别器来说与真实图像无法区分。 下面还有其他几种方法来匹配这些分布,我们稍后会简要讨论。但在我们到达下面之前,这里有两个动画显示生成模型的样本,让你对训练过程有一个视觉感受。在这两种情况下,生成器的样本开始时是嘈杂和混乱的,随着时间推移汇聚到具有更合理的图像统计特性: 生成模型动画 1 VAE 学习生成图像(对数时间) 生成模型动画 2 GAN 学习生成图像(线性时间) 这令人兴奋——这些神经网络正在学习视觉世界的样子!这些模型通常只有大约 1 亿个参数,所以在 ImageNet 上训练的网络必须(有损地)将 200GB 的像素数据压缩成 100MB 的权重。这激励它发现数据最显著的特征:例如,它可能会学到附近的像素可能具有相同的颜色,或者世界由水平或垂直边缘组成,或不同颜色的斑块。最终,模型可能会发现许多更复杂的规律性:存在某些类型的背景、物体、纹理,它们以某种可能的排列方式出现,或者它们在视频中随时间以某种方式变换等。 从数学角度来说,我们将数据集的示例 x₁,...,xₙ 视为从真实数据分布 p(x) 的样本。在下面的示例图像中,蓝色区域显示图像空间中有高概率(在某个阈值之上)包含真实图像的部分,黑点表示我们的数据点(每个都是我们数据集中的一张图像)。现在,我们的模型也描述了一个分布 p̂θ(x)(绿色),它通过从单位高斯分布(红色)取点并通过一个(确定性的)神经网络——我们的生成模型(黄色)映射来隐式定义。我们的网络是具有参数 θ 的函数,调整这些参数将调整生成图像的分布。我们的目标是找到参数 θ,使其产生的分布与真实数据分布紧密匹配(例如,通过具有小的 KL 散度损失)。因此,你可以想象绿色分布开始时是随机的,然后训练过程迭代地改变参数 θ 来拉伸和挤压它以更好地匹配蓝色分布。 生成模型图表 2 大多数生成模型都有这个基本设置,但细节上有所不同。以下是三个流行的生成模型方法示例,让你了解其变化: - 生成对抗网络 (GAN),我们上面已经讨论过,将训练过程表述为两个独立网络之间的博弈:生成器网络(如上所示)和第二个判别网络,它试图将样本分类为来自真实分布 p(x) 或模型分布 p̂(x)。每当判别器注意到两个分布之间的差异时,生成器会稍微调整其参数使其消失,直到最后(理论上)生成器完全再现真实数据分布,判别器无法找到差异而随机猜测。 - 变分自动编码器 (VAE) 允许我们在概率图模型框架中形式化这个问题,其中我们最大化数据对数似然的下界。 - 自回归模型,如 PixelRNN,训练一个网络来建模给定前面像素(左边和上面的)每个单个像素的条件分布。这类似于将图像的像素插入 char-rnn,但 RNN 在图像上水平和垂直运行,而不仅仅是字符的 1D 序列。 所有这些方法都有各自的优缺点。例如,变分自动编码器允许我们在具有潜变量的复杂概率图模型中进行学习和有效的贝叶斯推理(例如,参见 DRAW 或 Attend Infer Repeat,可以看出最近相对复杂模型的线索)。然而,它们生成的样本往往略微模糊。GAN 目前生成最清晰的图像,但由于训练动态不稳定,更难优化。PixelRNN 有非常简单和稳定的训练过程(softmax 损失),目前给出最佳的对数似然(即生成数据的似然性)。然而,它们在采样期间相对低效,并且不能轻松为图像提供简单的低维*代码*。所有这些模型都是活跃的研究领域,我们期待看到它们如何在未来发展! 我们在 OpenAI 对生成模型感到非常兴奋,并刚刚发布了四个推进最先进技术的项目。对于这些贡献中的每一个,我们也发布了技术报告和源代码。 **改进 GAN**(代码)。首先,如上所述,GAN 是一个非常有前景的生成模型系列,因为与其他方法不同,它们生成非常清晰的图像并学习包含关于这些纹理有价值信息的代码。然而,GAN 被表述为两个网络之间的博弈,保持它们平衡很重要(也很棘手!):例如,它们可以在解决方案之间振荡,或者生成器有崩溃的倾向。在这项工作中,Tim Salimans、Ian Goodfellow、Wojciech Zaremba 和同事们引入了一些新技术来使 GAN 训练更加稳定。这些技术使我们能够扩展 GAN 规模并获得良好的 `128x128` ImageNet 样本: 生成模型图 2 生成模型图 3 我们的 CIFAR-10 样本看起来也非常清晰 - Amazon Mechanical Turk 工作者可以以 21.3% 的错误率区分我们的样本和真实数据(50% 是随机猜测): 生成模型图 4 生成模型图 5 除了生成漂亮的图片外,我们还引入了一种使用 GAN 进行半监督学习的方法,涉及判别器输出一个表示输入标签的额外输出。这种方法使我们能够在 MNIST、SVHN 和 CIFAR-10 上获得最先进的结果,在仅有很少标记示例的设置中。例如,在 MNIST 上,我们仅用每个类 10 个标记示例的完全连接神经网络实现了 99.14% 的准确度——这个结果非常接近使用全部 60,000 个标记示例的完全监督方法的最佳已知结果。这非常有前景,因为在实践中标记示例可能相当昂贵。 生成对抗网络是相对较新的模型(仅在两年前推出),我们期待在进一步改进这些模型的训练稳定性方面看到更快的进展。 **改进 VAE**(代码)。在这项工作中,Durk Kingma 和 Tim Salimans 引入了一种灵活且计算可扩展的方法来改进变分推理的准确性。特别是,大多数 VAE 迄今为止一直使用粗糙的近似后验进行训练,其中每个潜变量都是独立的。最近的扩展通过在链中让每个潜变量以其他之前的变量为条件来解决这个问题,但由于引入的顺序依赖性,这在计算上效率低下。这项工作的核心贡献称为*逆自回归流*(IAF),是一种新方法,与以前的工作不同,它允许我们并行化丰富近似后验的计算,并使它们几乎任意灵活。 我们在下面的图像中显示了模型的一些示例 32x32 图像样本,在右侧。左边是来自 DRAW 模型的早期样本用于比较(香草 VAE 样本看起来会更糟和更模糊)。DRAW 模型仅在一年前发布,再次突显了训练生成模型正在取得的快速进展。 生成模型图 6 由 DRAW 模型生成 生成模型图 7 由使用 IAF 训练的 VAE 生成 **InfoGAN**(代码)。Peter Chen 和同事们引入了 InfoGAN——GAN 的一个扩展,它学习图像的解缠和可解释的表示。常规 GAN 实现了在模型中再现数据分布的目标,但代码空间的布局和组织是*欠指定的*——有许多可能的解决方案用于将单位高斯映射到图像,我们最终得到的可能是复杂的和高度缠绕的。InfoGAN 通过添加涉及最大化表示变量的小子集和观察之间的互信息的新目标,对这个空间施加了额外的结构。

相似文章

OpenAI 技术详解

OpenAI Blog

OpenAI 发布了一篇关于其核心技术的解读文章,详细介绍了 GPT-4 等语言模型是如何通过预训练(从海量文本数据中学习)和后训练(与人类价值观对齐和安全实践)开发而成的。文章强调了 OpenAI 的非营利使命结构,并解释了原始基础模型与经过优化、可用版本之间的区别。

OpenAI被评为生成式AI新兴领导者

OpenAI Blog

Gartner在其2025年生成式AI模型提供商创新指南中将OpenAI命名为新兴领导者,认可了该公司在支持超过100万家公司安全大规模部署AI方面取得的进展。这一认可反映了OpenAI的企业势头,包括ChatGPT Enterprise席位年同比增长9倍,以及主要组织中强劲的客户采用率。

基于能量的模型的隐式生成和泛化方法

OpenAI Blog

OpenAI 提出了基于能量的模型 (EBM) 的隐式生成和泛化方法,该方法使用 Langevin 动力学进行迭代优化以生成样本,无需显式生成器网络。该方法具有多个优势,包括自适应计算时间、学习不连通数据模式的灵活性,以及通过专家乘积实现的内置组合性。

视频生成模型作为世界模拟器

OpenAI Blog

OpenAI的技术报告介绍了Sora视频生成模型,该模型通过视觉补丁统一多样化的视觉数据,支持大规模训练生成模型,能够生成长达一分钟的高清视频,支持可变的时长、宽高比和分辨率。

一致性模型

OpenAI Blog

OpenAI 推出一致性模型,这是一类新的生成模型,通过直接将噪声映射到数据,支持快速单步图像生成,同时支持多步采样和零次学习编辑任务(如图像修复和超分辨率)。该方法在 CIFAR-10 和 ImageNet 64x64 上的单步生成中实现了最先进的 FID 分数。