@lujasper: 在OBLIQ-bench的子采样版本上尝试搜索的一些早期结果。Mixedbread的重排序器是一...

X AI KOLs Following 2026/06/02 15:20 新闻

摘要

在子采样OBLIQ-bench上测试搜索的早期结果显示，Mixedbread的重排序器获得了较强的MRR，有时在某些指标上优于GPT 5.5，且速度更快，但该基准测试仍具有挑战性。

在OBLIQ-bench的子采样版本上尝试搜索的一些早期结果。 Mixedbread的重排序器是个怪兽模型！它在任务上获得了相当强的MRR，甚至在某些指标上略胜GPT 5.5，同时速度明显更快。我主要对更传统的检索-重排序设置感兴趣，因为基于智能体的方法感觉有点过于明显/无聊。但我最终确信，这个基准测试足够难，以至于： 1. 即使是当今最好的嵌入+重排序模型也只能达到一定水平 2. 更高的成本/延迟是可以容忍的。接下来我将看看我能在成本/延迟与质量之间的权衡上走多远。

查看原文

查看缓存全文

缓存时间: 2026/06/03 01:40

一些早期结果来自对OBLIQ-bench子采样版本的搜索实验。

混合面包的重排序器真是款强大的模型！它在任务上获得了相当不错的MRR，甚至在部分指标上略胜于GPT 5.5，同时速度显著更快。

我主要对更传统的检索-重排序方案感兴趣，因为智能体方法感觉有点太明显/无聊了。但经过实验，我确信这个基准足够难，以至于：

即使是目前最好的嵌入+重排序模型，也只能取得有限进展
更高的成本/延迟是可以接受的。

我将看看能在成本/延迟与质量之间的权衡上推进到什么程度。

@lujasper: 在OBLIQ-bench的子采样版本上尝试搜索的一些早期结果。Mixedbread的重排序器是一...

相似文章

@RuiTheBaker: GPT 5.5级别的排名，但快27倍？！@mixedbreadai

@dianetc_: 我们着手构建一个更好的检索器，因此寻找了最难的IR基准测试。针对每个基准，我们询问了还有多少提升空间……

MLE-Bench 的性能提升：算法贡献 vs. 更好的模型与更多搜索？[R]

@_reachsumit: OBLIQ-Bench: 揭示现代检索器中因潜在和隐式查询而被忽视的瓶颈 @dianetc_ 等人提出…

18 款 LLM OCR 实测（7k+ 次调用）：便宜/旧模型常吊打旗舰，完整数据集+框架已开源 [R]

提交意见反馈