新的嵌入模型和 API 更新
摘要
OpenAI 发布了两个新的嵌入模型:text-embedding-3-small(比 ada-002 便宜 5 倍,MIRACL 性能提升 40% 以上)和 text-embedding-3-large(性能最佳,支持最多 3072 维度)。两个模型在标准基准上都展现出显著的性能提升,同时降低了成本。
暂无内容
查看缓存全文
缓存时间: 2026/04/20 14:54
# 新的嵌入模型和 API 更新
源:https://openai.com/index/new-embedding-models-and-api-updates/
`text-embedding-3-small` 是我们新推出的高效嵌入模型,相比其前身 `text-embedding-ada-002` 模型(发布于 2022 年 12 月(https://openai.com/index/new-and-improved-embedding-model/))有了显著提升。
**性能更强。**对比 `text-embedding-ada-002` 和 `text-embedding-3-small`,在多语言检索的常用基准测试(MIRACL(在新窗口中打开)(https://github.com/project-miracl/miracl))上的平均得分从 31.4% 提高到了 44.0%,而在英文任务的常用基准测试(MTEB(在新窗口中打开)(https://github.com/embeddings-benchmark/mteb))上的平均得分从 61.0% 提高到了 62.3%。
**价格更低。**`text-embedding-3-small` 的效率也大幅高于上一代的 `text-embedding-ada-002` 模型。因此,`text-embedding-3-small` 的价格相比 `text-embedding-ada-002` 下降了 5 倍,从每 1k 个 token $0.0001 降至 $0.00002。
我们不会弃用 `text-embedding-ada-002`,所以虽然我们推荐使用新模型,但客户可以继续使用上一代模型。
## 新的大型文本嵌入模型:`text-embedding-3-large`
`text-embedding-3-large` 是我们新推出的下一代更大型嵌入模型,可创建最多 3072 维的嵌入。
**性能更强。**`text-embedding-3-large` 是我们性能最好的模型。对比 `text-embedding-ada-002` 和 `text-embedding-3-large`:在 MIRACL 上,平均得分从 31.4% 提高到了 54.9%,而在 MTEB 上,平均得分从 61.0% 提高到了 64.6%。
相似文章
全新改进的嵌入模型
OpenAI 发布了 text-embedding-ada-002,这是一个统一的嵌入模型,将之前的五个模型整合为一个,具有更出色的性能、4 倍更长的上下文窗口(8192 个令牌)、更小的维度(1536)以及比之前的 Davinci 嵌入模型低 99.8% 的定价。
介绍文本和代码嵌入
OpenAI 推出了新的嵌入 API 端点,可以将文本和代码转换为数值向量表示,用于语义搜索、聚类和分类任务。这些模型在标准基准测试上取得了最先进的效果,包括代码搜索性能相比之下提升了 20%。
@raphaelsrty:今天我们开源 LateOn 与 DenseOn,两款 149 M 参数的开放检索模型
Raphael 开源两款检索模型:LateOn(ColBERT 多向量)与 DenseOn(单向量),均 149 M 参数,在 BEIR 上超越体量 4 倍的大模型。
OpenAI新Images 2模型太强:角色完全一致,文字清晰不变
OpenAI发布升级图像模型,跨帧保持角色外观完美一致,文字清晰稳定。
在API中引入下一代音频模型
OpenAI 为 API 引入了下一代音频模型,包括改进的语音转文本(gpt-4o-transcribe、gpt-4o-mini-transcribe)和可自定义的文本转语音模型,使开发者能够构建更智能、更具表现力的语音代理,在具有挑战性的场景中提升准确性。