@__lu__jasper: 在OBLIQ-bench的子采样版本上尝试搜索的一些早期结果。Mixedbread的重排序器是一...

X AI KOLs Following 新闻

摘要

在子采样OBLIQ-bench上测试搜索的早期结果显示,Mixedbread的重排序器获得了较强的MRR,有时在某些指标上优于GPT 5.5,且速度更快,但该基准测试仍具有挑战性。

在OBLIQ-bench的子采样版本上尝试搜索的一些早期结果。 Mixedbread的重排序器是个怪兽模型!它在任务上获得了相当强的MRR,甚至在某些指标上略胜GPT 5.5,同时速度明显更快。 我主要对更传统的检索-重排序设置感兴趣,因为基于智能体的方法感觉有点过于明显/无聊。但我最终确信,这个基准测试足够难,以至于: 1. 即使是当今最好的嵌入+重排序模型也只能达到一定水平 2. 更高的成本/延迟是可以容忍的。 接下来我将看看我能在成本/延迟与质量之间的权衡上走多远。
查看原文
查看缓存全文

缓存时间: 2026/06/03 01:40

一些早期结果来自对OBLIQ-bench子采样版本的搜索实验。

混合面包的重排序器真是款强大的模型!它在任务上获得了相当不错的MRR,甚至在部分指标上略胜于GPT 5.5,同时速度显著更快。

我主要对更传统的检索-重排序方案感兴趣,因为智能体方法感觉有点太明显/无聊了。但经过实验,我确信这个基准足够难,以至于:

  1. 即使是目前最好的嵌入+重排序模型,也只能取得有限进展
  2. 更高的成本/延迟是可以接受的。

我将看看能在成本/延迟与质量之间的权衡上推进到什么程度。

相似文章