@jobergum：你们认识我是 BM25 guy，但 embeddings 也很酷。@HornetDev 团队刚刚发布了新文章，在 1 亿规模下做 ANN 调优……

X AI KOLs Timeline 2026/04/22 07:07 论文

摘要

HornetDev 团队发布文章，介绍在 1 亿级别数据下调优近似最近邻搜索，涵盖 embedding 偏差、图连通性与量化上限。

你们认识我是 BM25 guy，但 embeddings 也很酷。@HornetDev 团队刚刚发布了新文章，在 1 亿规模下做 ANN 调优，内容涵盖 embedding 偏差、图连通性与量化上限。

查看原文

相似文章

@DailyDoseOfDS_: 别再到处用向量搜索了！一个30年前的算法，无需训练、无需嵌入、无需微调……

X AI KOLs Timeline

文章反对过度使用向量搜索，强调BM25在精确关键词匹配上的有效性及其在混合搜索系统中的作用。

@hank_aibtc: 家人们，本地 LLM太香了！刷到 Hugging Face 上这个 gpt-oss-20b-tq3，真的有点上头！ OpenAI 官方开源的 20B+ 参数 MoE 模型，被社区用 TurboQuant 3-bit 量化 + MLX 优…

X AI KOLs Timeline

The article highlights the gpt-oss-20b-tq3 model, a quantized version of an OpenAI MoE model that runs efficiently on standard 16GB MacBook Airs using TurboQuant and MLX optimizations.

介绍文本和代码嵌入

OpenAI Blog

OpenAI 推出了新的嵌入 API 端点，可以将文本和代码转换为数值向量表示，用于语义搜索、聚类和分类任务。这些模型在标准基准测试上取得了最先进的效果，包括代码搜索性能相比之下提升了 20%。

新的嵌入模型和 API 更新

OpenAI Blog

OpenAI 发布了两个新的嵌入模型：text-embedding-3-small（比 ada-002 便宜 5 倍，MIRACL 性能提升 40% 以上）和 text-embedding-3-large（性能最佳，支持最多 3072 维度）。两个模型在标准基准上都展现出显著的性能提升，同时降低了成本。

@BenjaminDEKR：刚使用 gemini-embedding-2 将 27,603 条笔记向量化用于语义搜索。总花费：$0.07。这真是太棒了。

X AI KOLs Following

一位用户使用 gemini-embedding-2 将 27,603 条笔记向量化用于语义搜索，总花费仅 $0.07，凸显其经济实惠。