CLIP：连接文本与图像

OpenAI Blog 2021/01/05 08:00 模型

vision-language zero-shot contrastive-learning multimodal openai foundation-model

摘要

CLIP 是 OpenAI 的视觉语言模型，从互联网上的文本-图像对中学习，实现零样本视觉分类，无需任务特定的训练数据。它通过减少对昂贵标注数据集的依赖并提高现实世界泛化能力，解决了传统计算机视觉的主要局限性。

我们介绍了一个名为 CLIP 的神经网络，它通过自然语言监督高效学习视觉概念。只需提供要识别的视觉类别名称，CLIP 即可应用于任何视觉分类基准，类似于 GPT-2 和 GPT-3 的“零样本”能力。

查看缓存全文

缓存时间: 2026/04/20 14:46

# CLIP：连接文本与图像来源：https://openai.com/index/clip/ CLIP 旨在缓解标准深度学习方法在计算机视觉领域面临的多个重大问题： **成本高昂的数据集**：深度学习需要大量数据，而传统视觉模型依赖于人工标注的数据集，这些数据集构建成本高昂，且仅能为有限数量的预定义视觉概念提供监督。例如，ImageNet 数据集作为该领域规模最大的项目之一，需要超过 25,000 名标注员为 22,000 个物体类别标注 1400 万张图像。相比之下，CLIP 从互联网上已有的公共文本-图像对中学习。减少对昂贵大规模标注数据集的需求已有大量前期研究，尤其是自监督学习^(14),^(15),^(16)、对比方法^(17),^(18),^(19),^(20),^(21)、自训练方法^(22),^(23)和生成建模^(24),^(25),^(26),^(27)。 **狭窄的适用性**：ImageNet 模型擅长预测 1000 个 ImageNet 类别，但这几乎是它“开箱即用”时能做的全部。如果我们想执行任何其他任务，机器学习从业者需要构建新数据集、添加输出头并微调模型。相比之下，CLIP 无需额外训练样本即可适应广泛的视觉分类任务。要将 CLIP 应用于新任务，我们只需“告诉”CLIP 的文本编码器该任务的视觉概念名称，它就会基于 CLIP 的视觉表征输出一个线性分类器。该分类器的准确率往往能与全监督模型相媲美。我们随机（非精选）展示了零样本 CLIP 分类器在多个数据集的示例上的预测结果，如下所示。 **现实世界表现不佳**：深度学习系统常被报道在视觉基准上达到甚至超越人类水平^(28),^(A)，然而在实际部署中，其表现可能远低于基准所设定的预期。换句话说，“基准性能”与“实际性能”之间存在差距。我们推测，这种差距源于模型通过“作弊”——只优化基准性能，就像学生只复习往年考题来通过考试一样。相比之下，CLIP 模型无需在基准数据集上训练即可进行评估，因此无法以这种方式“作弊”。这使得其基准性能更能代表实际场景中的表现。为验证“作弊假说”，我们测量了 CLIP 在能够“学习”ImageNet 数据时性能的变化。当在线性分类器拟合于 CLIP 特征之上时，CLIP 在 ImageNet 测试集上的准确率提升了近 10%。然而，该分类器在评估其他 7 个衡量“鲁棒性”的数据集组合时，平均表现*并未更好*。^(30)

CLIP：连接文本与图像

相似文章

使用CLIP潜在表示的分层文本条件图像生成

krthr/clip-embeddings

异星绮梦：新兴艺术图景

PixelClaw：用于图像处理的 LLM 智能体

andreasjansson/clip-features

提交意见反馈