Glow:更优的可逆生成模型
摘要
OpenAI 推出 Glow,一种改进的可逆生成模型,通过用可学习的 1x1 卷积替换固定置换简化了 RealNVP 架构,实现更好的信息流和显著的性能提升。
我们推出 Glow,一种使用可逆 1x1 卷积的可逆生成模型。它扩展了之前关于可逆生成模型的研究工作并简化了架构。我们的模型可以生成逼真的高分辨率图像,支持高效采样,并能发现可用于操纵数据属性的特征。我们发布了该模型的代码和在线可视化工具,以便人们可以探索这些结果并在此基础上进行扩展。
查看缓存全文
缓存时间: 2026/04/20 14:55
# Glow:更好的可逆生成模型
来源:https://openai.com/index/glow/
我们的主要贡献,也是与早期 RealNVP 工作的不同之处在于添加了可逆的 1x1 卷积,以及移除了其他组件,从而简化了整个架构。
RealNVP 架构由两种类型层的序列组成:具有棋盘掩膜的层和具有通道掩膜的层。我们移除了具有棋盘掩膜的层,从而简化了架构。具有通道掩膜的层执行以下步骤的重复等效操作:
1. 通过反转通道维度上的顺序来置换输入。
2. 沿特征维度的中点将输入分成两部分 A 和 B。
3. 将 A 馈送到浅卷积神经网络。根据神经网络的输出线性变换 B。
4. 连接 A 和 B。
通过链接这些层,A 更新 B,然后 B 更新 A,然后 A 更新 B,以此类推。这种二部图信息流显然相当刚性。我们发现通过将第 1 步中的反向置换改为*固定的*混洗置换,模型性能会得到改善。
更进一步,我们还可以*学习*最优置换。学习置换矩阵是一个离散优化问题,不适用于梯度上升。但是由于置换操作只是具有方阵的线性变换的特殊情况,我们可以通过卷积神经网络使其工作,因为置换通道等价于具有相等数量输入和输出通道的 1x1 卷积操作。因此,我们用学习的 1x1 卷积操作替换了固定置换。1x1 卷积的权重被初始化为随机旋转矩阵。如下图所示,此操作会导致显著的建模改进。我们还证明了通过权重的 LU 分解可以有效地进行优化目标函数的计算。
相似文章
全新 ChatGPT 图像模型树立逼真图像生成新标杆
OpenAI 发布全新 ChatGPT 图像模型,为逼真图像生成设立新基准。
一致性模型
OpenAI 推出一致性模型,这是一类新的生成模型,通过直接将噪声映射到数据,支持快速单步图像生成,同时支持多步采样和零次学习编辑任务(如图像修复和超分辨率)。该方法在 CIFAR-10 和 ImageNet 64x64 上的单步生成中实现了最先进的 FID 分数。
将3D生成模型用于自回归布局生成
LaviGen是一个框架,它重用3D生成模型进行自回归3D布局生成,使用改进的3D扩散模型和dual-guidance self-rollout蒸馏机制,在LayoutVLM基准上实现了比最先进方法高19%的物理合理性和快65%的计算速度。
@HuggingPapers: Stable-GFlowNet:通过对比轨迹平衡实现多样化且鲁棒的 LLM 红队测试 Naver AI 消除了不稳定的…
Naver AI 推出了 Stable-GFlowNet,这是一种通过对比轨迹平衡来消除生成流网络中不稳定的配分函数估计,从而改善 LLM 红队测试的方法。
GPT-Image-2 正式推出
OpenAI 正在推出 GPT-Image-2,这是一款全新的图像生成模型,标志着其图像生成能力的重大升级。