krthr/clip-embeddings

Replicate Explore 工具

摘要

一个托管在 Replicate 上的基于 CLIP 的嵌入模型,使用 clip-vit-large-patch14 架构为图像和文本生成 768 维嵌入向量,每次运行费用约为 $0.00022。

krthr / clip-embeddings
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/09 06:25

# 在 Replicate 上使用 CLIP 进行图像和文本嵌入 来源:https://replicate.com/krthr/clip-embeddings ## 运行时间与费用 该模型在 Replicate 上每次运行费用约为 $0.00022,即每 $1 可运行 4545 次,但具体费用会因输入内容而有所不同。该模型同时也是开源的,你可以[使用 Docker 在自己的电脑上运行它](https://replicate.com/krthr/clip-embeddings/api)。 该模型运行在 [Nvidia T4 GPU 硬件](https://replicate.com/docs/billing)上。预测通常在 1 秒内完成。 ## 说明 使用 CLIP 获取文本和图像嵌入向量。 ### 详细信息 - 使用的模型:`clip-vit-large-patch14` - 嵌入向量长度:`768` ### 响应格式 ``` { "embedding": [0.1, 0.2, ..., 0.5] } ``` 模型创建于 1 年前

相似文章

andreasjansson/clip-features

Replicate Explore

一个在Replicate上的模型,输出文本和图像的CLIP ViT-L/14特征,支持输入间的相似度计算。

beautyyuyanli/multilingual-e5-large

Replicate Explore

多语言 E5-large 嵌入模型现已上线 Replicate,单次运行约 0.00098 美元,在 Nvidia L40S 上约 1 秒完成。

CLIP:连接文本与图像

OpenAI Blog

CLIP 是 OpenAI 的视觉语言模型,从互联网上的文本-图像对中学习,实现零样本视觉分类,无需任务特定的训练数据。它通过减少对昂贵标注数据集的依赖并提高现实世界泛化能力,解决了传统计算机视觉的主要局限性。

使用CLIP潜在表示的分层文本条件图像生成

OpenAI Blog

OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。

新的嵌入模型和 API 更新

OpenAI Blog

OpenAI 发布了两个新的嵌入模型:text-embedding-3-small(比 ada-002 便宜 5 倍,MIRACL 性能提升 40% 以上)和 text-embedding-3-large(性能最佳,支持最多 3072 维度)。两个模型在标准基准上都展现出显著的性能提升,同时降低了成本。