andreasjansson/clip-features

Replicate Explore 模型

摘要

一个在Replicate上的模型,输出文本和图像的CLIP ViT-L/14特征,支持输入间的相似度计算。

andreasjansson / clip-features
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 06:25

# andreasjansson/clip-features – Replicate 来源:https://replicate.com/andreasjansson/clip-features 这是一个 Cog 模型,用于输出文本和图像的 clip-vit-large-patch14 特征向量。 通过 API 运行: `` import replicate import numpy as np from numpy.linalg import norm def cos_sim(a, b): return np.dot(a, b) / (norm(a) * norm(b)) inputs = """ 一张狗的照片 一只猫 两只拿着遥控器的猫 https://replicate.com/api/models/cjwbw/clip-vit-large-patch14/files/36b04aec-efe2-4dea-9c9d-a5faca68b2b2/000000039769.jpg """ # 运行预测 model = replicate.models.get("andreasjansson/clip-features") outputs = model.predict(inputs=inputs) # 输出前三行文本与第四行图片的相似度 for i in range(3): print(outputs[i]["input"]) print(cos_sim(outputs[i]["embedding"], outputs[3]["embedding"])) print() """ # 运行预测 model = replicate.models.get("andreasjansson/clip-features") outputs = model.predict(inputs=inputs) # 输出前三行文本与第四行图片的相似度 for i in range(3): print(outputs[i].input) print(cos_sim(outputs[i].embedding, outputs[3].embedding)) print() `` 模型创建于 1 年多前

相似文章

krthr/clip-embeddings

Replicate Explore

一个托管在 Replicate 上的基于 CLIP 的嵌入模型,使用 clip-vit-large-patch14 架构为图像和文本生成 768 维嵌入向量,每次运行费用约为 $0.00022。

CLIP:连接文本与图像

OpenAI Blog

CLIP 是 OpenAI 的视觉语言模型,从互联网上的文本-图像对中学习,实现零样本视觉分类,无需任务特定的训练数据。它通过减少对昂贵标注数据集的依赖并提高现实世界泛化能力,解决了传统计算机视觉的主要局限性。

使用CLIP潜在表示的分层文本条件图像生成

OpenAI Blog

OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。

beautyyuyanli/multilingual-e5-large

Replicate Explore

多语言 E5-large 嵌入模型现已上线 Replicate,单次运行约 0.00098 美元,在 Nvidia L40S 上约 1 秒完成。

robbyant/lingbot-map

Hugging Face Models Trending

LingBot-Map 是一个前馈式 3D 基础模型,用于流式 3D 重建,采用几何上下文转换器架构,在超过 10,000 帧的长序列上实现最先进的性能,并具有高效的 ~20 FPS 推理速度。