@raphaelsrty:今天我们开源 LateOn 与 DenseOn,两款 149 M 参数的开放检索模型

X AI KOLs Following 模型

摘要

Raphael 开源两款检索模型:LateOn(ColBERT 多向量)与 DenseOn(单向量),均 149 M 参数,在 BEIR 上超越体量 4 倍的大模型。

今天我们正式发布 LateOn 与 DenseOn,两款 149 M 参数的开放检索模型。 - LateOn(ColBERT,多向量):BEIR 上 NDCG@10 达 57.22 - DenseOn(稠密,单向量):BEIR 上 NDCG@10 达 56.20 两者均优于体量高达 4 倍的竞品。模型权重以 Apache 2.0 协议完全开源。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/21 17:13

今天我们发布 LateOn 与 DenseOn。两款开源检索模型,参数量均为 1.49 亿。LateOn(ColBERT,多向量)在 BEIR 上达到 57.22 NDCG@10;DenseOn(稠密,单向量)为 56.20。两者均击败体量高达 4 倍的模型。我们以 Apache 2.0 协议开源权重。

相似文章

@lateinteraction: 主题演讲录像现已上传至 YouTube,供所有要求我们在 X 平台以外托管的用户观看。https://youtube.com/watch?v=Z2…

X AI KOLs Timeline

一场主题演讲认为,后期交互检索(如 ColBERT 风格)是 AI 规模信息检索研究中最具前景的方向,并指出单向量密集检索存在根本性缺陷,呼吁信息检索社区大幅提升研究雄心。演讲引入 LIMIT 基准测试,作为密集检索泛化能力不足的佐证,并呼吁在 2030 年前实现范式转变。

新的嵌入模型和 API 更新

OpenAI Blog

OpenAI 发布了两个新的嵌入模型:text-embedding-3-small(比 ada-002 便宜 5 倍,MIRACL 性能提升 40% 以上)和 text-embedding-3-large(性能最佳,支持最多 3072 维度)。两个模型在标准基准上都展现出显著的性能提升,同时降低了成本。