全新改进的嵌入模型

OpenAI Blog 模型

摘要

OpenAI 发布了 text-embedding-ada-002,这是一个统一的嵌入模型,将之前的五个模型整合为一个,具有更出色的性能、4 倍更长的上下文窗口(8192 个令牌)、更小的维度(1536)以及比之前的 Davinci 嵌入模型低 99.8% 的定价。

我们很荣幸宣布推出一个新的嵌入模型,它具有更强的能力、更经济高效且更易使用。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 14:46

# 新的改进嵌入模型 来源:https://openai.com/index/new-and-improved-embedding-model/ 新模型 `text-embedding-ada-002` 替代了五个独立模型,用于文本搜索、文本相似性和代码搜索。它的性能超越了我们之前最强大的模型 Davinci,在大多数任务中表现更好,同时价格低 99.8%。 **能力统一**。我们大幅简化了[嵌入](https://beta.openai.com/docs/api-reference/embeddings)端点的接口,将上述五个独立模型(`text-similarity`、`text-search-query`、`text-search-doc`、`code-search-text` 和 `code-search-code`)合并为单一新模型。这个单一表示在文本搜索、句子相似性和代码搜索的多个基准测试中表现都优于我们之前的嵌入模型。 **更长的上下文**。新模型的上下文长度从 2048 增加到 8192,增长了四倍,使处理长文档变得更加便捷。 **更小的嵌入维度**。新嵌入只有 1536 维,是 `davinci-001` 嵌入维度的八分之一,使新嵌入在使用向量数据库时更具成本效益。 **降低价格**。相比同等规模的旧模型,我们将新嵌入模型的价格降低了 90%。新模型在价格低 99.8% 的情况下,达到了与旧 Davinci 模型相似或更好的性能。 总体而言,新嵌入模型是自然语言处理和代码任务的更加强大的工具。我们很期待看到客户将其应用于各自领域中,创建更强大的应用程序。

相似文章

新的嵌入模型和 API 更新

OpenAI Blog

OpenAI 发布了两个新的嵌入模型:text-embedding-3-small(比 ada-002 便宜 5 倍,MIRACL 性能提升 40% 以上)和 text-embedding-3-large(性能最佳,支持最多 3072 维度)。两个模型在标准基准上都展现出显著的性能提升,同时降低了成本。

介绍文本和代码嵌入

OpenAI Blog

OpenAI 推出了新的嵌入 API 端点,可以将文本和代码转换为数值向量表示,用于语义搜索、聚类和分类任务。这些模型在标准基准测试上取得了最先进的效果,包括代码搜索性能相比之下提升了 20%。

通过对比预训练的文本和代码嵌入

OpenAI Blog

# 通过对比预训练的文本和代码嵌入 源:[https://openai.com/index/text-and-code-embeddings-by-contrastive-pre-training/](https://openai.com/index/text-and-code-embeddings-by-contrastive-pre-training/) ## 摘要 文本嵌入是许多应用中的有用特征,例如语义搜索和计算文本相似性。以往的工作通常训练针对不同用例定制的模型,在数据集选择、训练目标和模型架构方面各不相同。在这