andreasjansson/clip-features
摘要
一个在Replicate上的模型,输出文本和图像的CLIP ViT-L/14特征,支持输入间的相似度计算。
andreasjansson / clip-features
查看缓存全文
缓存时间: 2026/05/08 06:25
# andreasjansson/clip-features – Replicate
来源:https://replicate.com/andreasjansson/clip-features
这是一个 Cog 模型,用于输出文本和图像的 clip-vit-large-patch14 特征向量。
通过 API 运行:
``
import replicate
import numpy as np
from numpy.linalg import norm
def cos_sim(a, b):
return np.dot(a, b) / (norm(a) * norm(b))
inputs = """
一张狗的照片
一只猫
两只拿着遥控器的猫
https://replicate.com/api/models/cjwbw/clip-vit-large-patch14/files/36b04aec-efe2-4dea-9c9d-a5faca68b2b2/000000039769.jpg
"""
# 运行预测
model = replicate.models.get("andreasjansson/clip-features")
outputs = model.predict(inputs=inputs)
# 输出前三行文本与第四行图片的相似度
for i in range(3):
print(outputs[i]["input"])
print(cos_sim(outputs[i]["embedding"], outputs[3]["embedding"]))
print()
"""
# 运行预测
model = replicate.models.get("andreasjansson/clip-features")
outputs = model.predict(inputs=inputs)
# 输出前三行文本与第四行图片的相似度
for i in range(3):
print(outputs[i].input)
print(cos_sim(outputs[i].embedding, outputs[3].embedding))
print()
``
模型创建于 1 年多前
相似文章
krthr/clip-embeddings
一个托管在 Replicate 上的基于 CLIP 的嵌入模型,使用 clip-vit-large-patch14 架构为图像和文本生成 768 维嵌入向量,每次运行费用约为 $0.00022。
CLIP:连接文本与图像
CLIP 是 OpenAI 的视觉语言模型,从互联网上的文本-图像对中学习,实现零样本视觉分类,无需任务特定的训练数据。它通过减少对昂贵标注数据集的依赖并提高现实世界泛化能力,解决了传统计算机视觉的主要局限性。
使用CLIP潜在表示的分层文本条件图像生成
OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。
beautyyuyanli/multilingual-e5-large
多语言 E5-large 嵌入模型现已上线 Replicate,单次运行约 0.00098 美元,在 Nvidia L40S 上约 1 秒完成。
robbyant/lingbot-map
LingBot-Map 是一个前馈式 3D 基础模型,用于流式 3D 重建,采用几何上下文转换器架构,在超过 10,000 帧的长序列上实现最先进的性能,并具有高效的 ~20 FPS 推理速度。