标签
本文评估了十二种最新文本编码器在三种心理学情绪理论中编码情感线索的能力,发现指令感知的开源权重编码器在单词级别上达到或超过专有编码器,而任务微调嵌入在句子级别上更优。
本文介绍了MELD数据集,用于评估文本嵌入模型是否能够捕捉不同术语之间的数学等价性,并发现当前模型无法做到。本文提出了一种对比学习方法,用于对齐非正式和正式的数学表述,从而在非正式-正式检索任务以及自然语言任务上均取得改进。
本文提出一种人在回路流水线,用于测量计算机科学项目对课程指南的覆盖情况,并纵向应用于CS2013和CS2023。该框架显示主题覆盖率近乎恒定,但由于新版指南提高了期望,认知深度存在差距。
本文指出,LLM文本嵌入过度表达了高频无信息词元,并提出EmbedFilter,一种线性变换,通过滤除该子空间来改善语义表示并实现降维。
JFinTEB引入了首个全面的基准,专门用于评估日本金融文本嵌入,填补了特定领域和语言特定评估资源的空白。该基准包括在日本特定、多语言和商业嵌入模型中评估的检索和分类任务,数据集和评估框架已公开发布。
OpenAI 发布了 text-embedding-ada-002,这是一个统一的嵌入模型,将之前的五个模型整合为一个,具有更出色的性能、4 倍更长的上下文窗口(8192 个令牌)、更小的维度(1536)以及比之前的 Davinci 嵌入模型低 99.8% 的定价。
一个托管在 Replicate 上的基于 CLIP 的嵌入模型,使用 clip-vit-large-patch14 架构为图像和文本生成 768 维嵌入向量,每次运行费用约为 $0.00022。