@__lu__jasper: 在OBLIQ-bench的子采样版本上尝试搜索的一些早期结果。Mixedbread的重排序器是一...
摘要
在子采样OBLIQ-bench上测试搜索的早期结果显示,Mixedbread的重排序器获得了较强的MRR,有时在某些指标上优于GPT 5.5,且速度更快,但该基准测试仍具有挑战性。
在OBLIQ-bench的子采样版本上尝试搜索的一些早期结果。
Mixedbread的重排序器是个怪兽模型!它在任务上获得了相当强的MRR,甚至在某些指标上略胜GPT 5.5,同时速度明显更快。
我主要对更传统的检索-重排序设置感兴趣,因为基于智能体的方法感觉有点过于明显/无聊。但我最终确信,这个基准测试足够难,以至于:
1. 即使是当今最好的嵌入+重排序模型也只能达到一定水平
2. 更高的成本/延迟是可以容忍的。
接下来我将看看我能在成本/延迟与质量之间的权衡上走多远。
查看缓存全文
缓存时间: 2026/06/03 01:40
一些早期结果来自对OBLIQ-bench子采样版本的搜索实验。
混合面包的重排序器真是款强大的模型!它在任务上获得了相当不错的MRR,甚至在部分指标上略胜于GPT 5.5,同时速度显著更快。
我主要对更传统的检索-重排序方案感兴趣,因为智能体方法感觉有点太明显/无聊了。但经过实验,我确信这个基准足够难,以至于:
- 即使是目前最好的嵌入+重排序模型,也只能取得有限进展
- 更高的成本/延迟是可以接受的。
我将看看能在成本/延迟与质量之间的权衡上推进到什么程度。
相似文章
@RuiTheBaker: GPT 5.5级别的排名,但快27倍?!@mixedbreadai
根据早期结果,Mixedbread 的重排序器在 OBLIQ-bench 上达到了 GPT 5.5 级别性能,同时速度快 27 倍。
@dianetc_: 我们着手构建一个更好的检索器,因此寻找了最难的IR基准测试。针对每个基准,我们询问了还有多少提升空间……
作者介绍了OBLIQ-Bench,这是一个新基准,用于评估信息检索系统在明显更难的搜索查询上的表现,而之前的基准测试几乎没有剩余提升空间。
MLE-Bench 的性能提升:算法贡献 vs. 更好的模型与更多搜索?[R]
一项新基准 FML-Bench 揭示,近期 MLE-Bench 分数的提升主要归因于更好的基础模型和增加的搜索预算,而非算法进步。
@_reachsumit: OBLIQ-Bench: 揭示现代检索器中因潜在和隐式查询而被忽视的瓶颈 @dianetc_ 等人提出…
OBLIQ-Bench 是一个新的基准测试,揭示了当前检索系统在处理需要潜在或隐式推理的间接查询时的弱点,表明即使复杂的检索流程也无法提供相关文档,而这些文档是推理型大语言模型容易验证的。
18 款 LLM OCR 实测(7k+ 次调用):便宜/旧模型常吊打旗舰,完整数据集+框架已开源 [R]
对 18 款大模型在 OCR 任务上的全面评测(7k+ 次调用)发现,便宜或旧模型往往能以极低成本达到与旗舰模型相当的准确率,数据集与评测框架已完全开源。