标签
TTL引入了一个测试时文本学习框架,用于使用CLIP等预训练视觉-语言模型进行OOD检测,该框架能够从未标记的测试流中动态学习OOD语义,无需外部OOD标签。该方法使用伪标记样本和OOD知识净化策略来提高检测的鲁棒性,应对多样化和不断演变的OOD分布。
OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。
OpenAI 在 CLIP 中发现了多模态神经元,它们在不同模态(视觉、符号、文本)中对同一概念做出响应,这与生物神经元的行为相似,解释了该模型在困难视觉任务上的鲁棒性。这项可解释性研究为我们理解视觉-语言模型如何组织和表示抽象概念提供了深刻见解。
一个托管在 Replicate 上的基于 CLIP 的嵌入模型,使用 clip-vit-large-patch14 架构为图像和文本生成 768 维嵌入向量,每次运行费用约为 $0.00022。
一个在Replicate上的模型,输出文本和图像的CLIP ViT-L/14特征,支持输入间的相似度计算。