CLIP:连接文本与图像

OpenAI Blog 模型

摘要

CLIP 是 OpenAI 的视觉语言模型,从互联网上的文本-图像对中学习,实现零样本视觉分类,无需任务特定的训练数据。它通过减少对昂贵标注数据集的依赖并提高现实世界泛化能力,解决了传统计算机视觉的主要局限性。

我们介绍了一个名为 CLIP 的神经网络,它通过自然语言监督高效学习视觉概念。只需提供要识别的视觉类别名称,CLIP 即可应用于任何视觉分类基准,类似于 GPT-2 和 GPT-3 的“零样本”能力。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:46

# CLIP:连接文本与图像 来源:https://openai.com/index/clip/ CLIP 旨在缓解标准深度学习方法在计算机视觉领域面临的多个重大问题: **成本高昂的数据集**:深度学习需要大量数据,而传统视觉模型依赖于人工标注的数据集,这些数据集构建成本高昂,且仅能为有限数量的预定义视觉概念提供监督。例如,ImageNet 数据集作为该领域规模最大的项目之一,需要超过 25,000 名标注员为 22,000 个物体类别标注 1400 万张图像。相比之下,CLIP 从互联网上已有的公共文本-图像对中学习。减少对昂贵大规模标注数据集的需求已有大量前期研究,尤其是自监督学习^(14),^(15),^(16)、对比方法^(17),^(18),^(19),^(20),^(21)、自训练方法^(22),^(23)和生成建模^(24),^(25),^(26),^(27)。 **狭窄的适用性**:ImageNet 模型擅长预测 1000 个 ImageNet 类别,但这几乎是它“开箱即用”时能做的全部。如果我们想执行任何其他任务,机器学习从业者需要构建新数据集、添加输出头并微调模型。相比之下,CLIP 无需额外训练样本即可适应广泛的视觉分类任务。要将 CLIP 应用于新任务,我们只需“告诉”CLIP 的文本编码器该任务的视觉概念名称,它就会基于 CLIP 的视觉表征输出一个线性分类器。该分类器的准确率往往能与全监督模型相媲美。 我们随机(非精选)展示了零样本 CLIP 分类器在多个数据集的示例上的预测结果,如下所示。 **现实世界表现不佳**:深度学习系统常被报道在视觉基准上达到甚至超越人类水平^(28),^(A),然而在实际部署中,其表现可能远低于基准所设定的预期。换句话说,“基准性能”与“实际性能”之间存在差距。我们推测,这种差距源于模型通过“作弊”——只优化基准性能,就像学生只复习往年考题来通过考试一样。相比之下,CLIP 模型无需在基准数据集上训练即可进行评估,因此无法以这种方式“作弊”。这使得其基准性能更能代表实际场景中的表现。为验证“作弊假说”,我们测量了 CLIP 在能够“学习”ImageNet 数据时性能的变化。当在线性分类器拟合于 CLIP 特征之上时,CLIP 在 ImageNet 测试集上的准确率提升了近 10%。然而,该分类器在评估其他 7 个衡量“鲁棒性”的数据集组合时,平均表现*并未更好*。^(30)

相似文章

使用CLIP潜在表示的分层文本条件图像生成

OpenAI Blog

OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。

krthr/clip-embeddings

Replicate Explore

一个托管在 Replicate 上的基于 CLIP 的嵌入模型,使用 clip-vit-large-patch14 架构为图像和文本生成 768 维嵌入向量,每次运行费用约为 $0.00022。

异星绮梦:新兴艺术图景

ML at Berkeley

本文聚焦于利用 OpenAI 的 CLIP 模型作为生成式模型引导机制的新兴 AI 生成艺术场景,展示了多种文本转图像的生成实例。

andreasjansson/clip-features

Replicate Explore

一个在Replicate上的模型,输出文本和图像的CLIP ViT-L/14特征,支持输入间的相似度计算。