使用CLIP潜在表示的分层文本条件图像生成

OpenAI Blog 论文

摘要

OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/04/20 14:46

# 使用CLIP潜在表示的分层文本条件图像生成 来源:https://openai.com/index/hierarchical-text-conditional-image-generation-with-clip-latents/ CLIP等对比模型已被证明能够学习到同时捕捉语义和风格的强大图像表示。为了利用这些表示进行图像生成,我们提出了一个两阶段模型:一个先验模型根据文本描述生成CLIP图像嵌入,一个解码器根据图像嵌入生成图像。我们证明了显式生成图像表示可以在保持照片真实感和文本相似度的同时提高图像多样性。以图像表示为条件的解码器还可以生成保留图像语义和风格的变体,同时改变图像表示中缺失的非本质细节。此外,CLIP的联合嵌入空间使得零样本语言引导图像操作成为可能。我们在解码器中使用扩散模型,并为先验模型尝试了自回归和扩散模型,发现后者在计算效率上更高,并能生成更高质量的样本。

相似文章

CLIP:连接文本与图像

OpenAI Blog

CLIP 是 OpenAI 的视觉语言模型,从互联网上的文本-图像对中学习,实现零样本视觉分类,无需任务特定的训练数据。它通过减少对昂贵标注数据集的依赖并提高现实世界泛化能力,解决了传统计算机视觉的主要局限性。

通过闭环验证推理解锁复杂视觉生成

Hugging Face Daily Papers

介绍CLVR(闭环视觉推理),一种将文本到图像生成从单步过程重构为闭环多步视觉推理方法的框架,使用VLM控制器和扩散模型,在组合提示上实现了改进的性能。