@jobergum:你们认识我是 BM25 guy,但 embeddings 也很酷。@HornetDev 团队刚刚发布了新文章,在 1 亿规模下做 ANN 调优……
摘要
HornetDev 团队发布文章,介绍在 1 亿级别数据下调优近似最近邻搜索,涵盖 embedding 偏差、图连通性与量化上限。
你们认识我是 BM25 guy,但 embeddings 也很酷。@HornetDev 团队刚刚发布了新文章,在 1 亿规模下做 ANN 调优,内容涵盖 embedding 偏差、图连通性与量化上限。
相似文章
@DailyDoseOfDS_: 别再到处用向量搜索了!一个30年前的算法,无需训练、无需嵌入、无需微调……
文章反对过度使用向量搜索,强调BM25在精确关键词匹配上的有效性及其在混合搜索系统中的作用。
介绍文本和代码嵌入
OpenAI 推出了新的嵌入 API 端点,可以将文本和代码转换为数值向量表示,用于语义搜索、聚类和分类任务。这些模型在标准基准测试上取得了最先进的效果,包括代码搜索性能相比之下提升了 20%。
新的嵌入模型和 API 更新
OpenAI 发布了两个新的嵌入模型:text-embedding-3-small(比 ada-002 便宜 5 倍,MIRACL 性能提升 40% 以上)和 text-embedding-3-large(性能最佳,支持最多 3072 维度)。两个模型在标准基准上都展现出显著的性能提升,同时降低了成本。
@BenjaminDEKR:刚使用 gemini-embedding-2 将 27,603 条笔记向量化用于语义搜索。总花费:$0.07。这真是太棒了。
一位用户使用 gemini-embedding-2 将 27,603 条笔记向量化用于语义搜索,总花费仅 $0.07,凸显其经济实惠。
@yoheinakajima: 全新的 http://di.gg 看起来很棒!
这是来自 Digg 的热门 AI 新闻汇总,涵盖了 Neuralink 脑机接口植入物、NVIDIA 针对 Claude Code 的性能修复、Anthropic 的政策立场以及 Flowception 视频建模代码的发布等话题。