介绍文本和代码嵌入
摘要
OpenAI 推出了新的嵌入 API 端点,可以将文本和代码转换为数值向量表示,用于语义搜索、聚类和分类任务。这些模型在标准基准测试上取得了最先进的效果,包括代码搜索性能相比之下提升了 20%。
我们推出了嵌入功能,这是 OpenAI API 中的新端点,可以轻松执行自然语言和代码任务,如语义搜索、聚类、主题建模和分类。
查看缓存全文
缓存时间:
2026/04/20 14:46
# 推出文本和代码嵌入
来源:https://openai.com/index/introducing-text-and-code-embeddings/
我们推出了嵌入(embeddings),这是 OpenAI API 中的一个新端点,可以轻松执行自然语言和代码任务,如语义搜索、聚类、主题建模和分类。
嵌入是概念的数值表示,转换为数字序列,使计算机能够轻松理解这些概念之间的关系。我们的嵌入在 3 个标准基准上的表现优于顶级模型,包括在代码搜索方面相对提升 20%。
嵌入对于处理自然语言和代码很有用,因为它们可以轻松地被其他机器学习模型和算法(如聚类或搜索)使用和比较。
数值上相似的嵌入在语义上也是相似的。例如,"canine companions say"的嵌入向量将比"meow"更相似于"woof"的嵌入向量。
相似嵌入图表
新端点使用神经网络模型(GPT-3 的后代)将文本和代码映射到向量表示——将其"嵌入"到高维空间中。每个维度捕获输入的某个方面。
OpenAI API 中的新 /embeddings 端点(https://beta.openai.com/docs/api-reference/embeddings)只需几行代码就能提供文本和代码嵌入:
我们发布了三个嵌入模型系列,每个都针对不同功能进行了调整:文本相似度、文本搜索和代码搜索。这些模型接受文本或代码作为输入,并返回嵌入向量。
要比较两段文本的相似性,只需在文本嵌入上使用点积(https://en.wikipedia.org/wiki/Dot_product)。结果是一个"相似度分数",有时称为"余弦相似度"(https://en.wikipedia.org/wiki/Dot_product#Application_to_the_law_of_cosines),范围在 -1 到 1 之间,数字越大表示相似度越高。在大多数应用中,嵌入可以预先计算,然后点积比较的执行速度非常快。
嵌入的一个常见用途是将其用作机器学习任务(如分类)中的特征。在机器学习文献中,使用线性分类器时,这种分类任务称为"线性探针"。我们的文本相似度模型在 SentEval(https://github.com/facebookresearch/SentEval)(Conneau et al.,2018(https://arxiv.org/abs/1803.05449))上实现了线性探针分类的最新成果,这是评估嵌入质量的常用基准。
文本搜索模型提供了支持大规模搜索任务的嵌入,例如在文档集合中根据文本查询查找相关文档。文档和查询的嵌入是分别生成的,然后使用余弦相似度来比较查询与每个文档之间的相似性。
基于嵌入的搜索相比经典关键词搜索中使用的词汇重叠技术能更好地泛化,因为它捕获了文本的语义含义,对精确短语或词汇的敏感性较低。我们在 BEIR(https://github.com/UKPLab/beir)(Thakur et al. 2021(https://arxiv.org/abs/2104.08663))搜索评估套件上评估了文本搜索模型的性能,获得了比之前方法更好的搜索性能。我们的文本搜索指南(https://beta.openai.com/docs/guides/embeddings/text-search-using-embeddings)提供了有关使用嵌入执行搜索任务的更多详情。
FineTune Learning(https://finetunelearning.com/)是一家为学习构建混合人类-AI 解决方案的公司,如自适应学习循环(https://en.wikipedia.org/wiki/Adaptive_learning),帮助学生达到学术标准。
OpenAI 的嵌入显著改进了基于学习目标查找教科书内容的任务。OpenAI 的 text-search-curie 嵌入模型达到了 89.1% 的 Top-5 准确率,优于之前的方法如 Sentence-BERT(64.5%)。虽然人类专家仍然更优秀,但 FineTune 团队现在能够在几秒钟内标记整本教科书,而专家之前需要花费数小时。
Fabius(https://www.fabius.io/)帮助公司将客户对话转化为结构化的见解,为规划和优先级排序提供信息。OpenAI 的嵌入使公司能够更轻松地查找和使用功能请求标记客户通话记录。
例如,客户可能会使用"自动化"或"易于使用"等词语来请求更好的自助服务平台。以前,Fabius 使用模糊关键词搜索来尝试用自助服务平台标签标记这些记录。使用 OpenAI 的嵌入,他们现在能够总体上找到 2 倍多的示例,对于没有清晰关键词的抽象用例功能,能找到 6-10 倍多的示例。
所有 API 客户都可以通过嵌入文档(https://beta.openai.com/docs/guides/embeddings)开始在他们的应用程序中使用嵌入。
相似文章
OpenAI Blog
# 通过对比预训练的文本和代码嵌入 源:[https://openai.com/index/text-and-code-embeddings-by-contrastive-pre-training/](https://openai.com/index/text-and-code-embeddings-by-contrastive-pre-training/) ## 摘要 文本嵌入是许多应用中的有用特征,例如语义搜索和计算文本相似性。以往的工作通常训练针对不同用例定制的模型,在数据集选择、训练目标和模型架构方面各不相同。在这
OpenAI Blog
OpenAI 发布了两个新的嵌入模型:text-embedding-3-small(比 ada-002 便宜 5 倍,MIRACL 性能提升 40% 以上)和 text-embedding-3-large(性能最佳,支持最多 3072 维度)。两个模型在标准基准上都展现出显著的性能提升,同时降低了成本。
OpenAI Blog
OpenAI 发布了 text-embedding-ada-002,这是一个统一的嵌入模型,将之前的五个模型整合为一个,具有更出色的性能、4 倍更长的上下文窗口(8192 个令牌)、更小的维度(1536)以及比之前的 Davinci 嵌入模型低 99.8% 的定价。
OpenAI Blog
# OpenAI内部数据代理探秘
来源:[https://openai.com/index/inside-our-in-house-data-agent/](https://openai.com/index/inside-our-in-house-data-agent/)
数据驱动着系统学习、产品演进以及企业决策。但快速、准确且带有正确语境地获取答案,往往比想象中要困难。为了在OpenAI规模扩展时简化这一过程,我们构建了**专属的内部AI数据代理**,它能够在我们的平台上进行探索和推理。**我们的代理**
OpenAI Blog
OpenAI 为 API 引入了下一代音频模型,包括改进的语音转文本(gpt-4o-transcribe、gpt-4o-mini-transcribe)和可自定义的文本转语音模型,使开发者能够构建更智能、更具表现力的语音代理,在具有挑战性的场景中提升准确性。