使用CLIP潜在表示的分层文本条件图像生成
摘要
OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 14:46
# 使用CLIP潜在表示的分层文本条件图像生成
来源:https://openai.com/index/hierarchical-text-conditional-image-generation-with-clip-latents/
CLIP等对比模型已被证明能够学习到同时捕捉语义和风格的强大图像表示。为了利用这些表示进行图像生成,我们提出了一个两阶段模型:一个先验模型根据文本描述生成CLIP图像嵌入,一个解码器根据图像嵌入生成图像。我们证明了显式生成图像表示可以在保持照片真实感和文本相似度的同时提高图像多样性。以图像表示为条件的解码器还可以生成保留图像语义和风格的变体,同时改变图像表示中缺失的非本质细节。此外,CLIP的联合嵌入空间使得零样本语言引导图像操作成为可能。我们在解码器中使用扩散模型,并为先验模型尝试了自回归和扩散模型,发现后者在计算效率上更高,并能生成更高质量的样本。
相似文章
CLIP:连接文本与图像
CLIP 是 OpenAI 的视觉语言模型,从互联网上的文本-图像对中学习,实现零样本视觉分类,无需任务特定的训练数据。它通过减少对昂贵标注数据集的依赖并提高现实世界泛化能力,解决了传统计算机视觉的主要局限性。
通过判别式文本表征将一步图像生成从类别标签扩展到文本
研究者通过集成高判别力的大语言模型文本编码器,将 MeanFlow 一步图像生成从固定类别标签扩展到灵活文本输入,实现高效的文本条件合成并显著提升性能。
通过闭环验证推理解锁复杂视觉生成
介绍CLVR(闭环视觉推理),一种将文本到图像生成从单步过程重构为闭环多步视觉推理方法的框架,使用VLM控制器和扩散模型,在组合提示上实现了改进的性能。
@xichen_pan: 现代文本到图像模型越来越多地依赖大型预训练LLM。但存在一个有趣的不匹配:LLM…
RepFusion提出了一种方法,在扩散Transformer中将预训练多模态LLM用作噪声表示编码器,用于文本到图像生成,在相似计算量下超越基线。
先素描后绘制:面向扩散多模态大语言模型的层次化强化学习
本文提出HT-GRPO,一种面向扩散多模态大语言模型的层次化强化学习方法,它采用先素描后绘制的训练方案和层次化信用分配机制,以提升图像生成质量和奖励对齐效果。