使用CLIP潜在表示的分层文本条件图像生成

OpenAI Blog 2022/04/13 07:00 论文

text-to-image clip diffusion-models image-generation multimodal generative-ai

摘要

OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型：一个先验模型从文本标题生成CLIP图像嵌入，以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性，并实现了零样本语言引导图像操作。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/04/20 14:46

# 使用CLIP潜在表示的分层文本条件图像生成来源：https://openai.com/index/hierarchical-text-conditional-image-generation-with-clip-latents/ CLIP等对比模型已被证明能够学习到同时捕捉语义和风格的强大图像表示。为了利用这些表示进行图像生成，我们提出了一个两阶段模型：一个先验模型根据文本描述生成CLIP图像嵌入，一个解码器根据图像嵌入生成图像。我们证明了显式生成图像表示可以在保持照片真实感和文本相似度的同时提高图像多样性。以图像表示为条件的解码器还可以生成保留图像语义和风格的变体，同时改变图像表示中缺失的非本质细节。此外，CLIP的联合嵌入空间使得零样本语言引导图像操作成为可能。我们在解码器中使用扩散模型，并为先验模型尝试了自回归和扩散模型，发现后者在计算效率上更高，并能生成更高质量的样本。

使用CLIP潜在表示的分层文本条件图像生成

相似文章

CLIP：连接文本与图像

通过判别式文本表征将一步图像生成从类别标签扩展到文本

通过闭环验证推理解锁复杂视觉生成

@xichen_pan: 现代文本到图像模型越来越多地依赖大型预训练LLM。但存在一个有趣的不匹配：LLM…

先素描后绘制：面向扩散多模态大语言模型的层次化强化学习

提交意见反馈