HAKARI-Bench:在统一条件下比较检索架构和效率设置的轻量级基准测试

Hugging Face Daily Papers 论文

摘要

HAKARI-Bench是一个轻量级基准测试,用于在多种配置和语言下比较检索方法,支持高效的模型选择和性能分析。它能在保持高相关性的同时,比运行完整基准测试(如MTEB)更快地复现其结果。

随着检索增强生成和语义搜索的迅速普及,选择合适的嵌入和检索配置变得越来越困难。大型检索基准测试虽然全面,但在开发过程中重新运行过于繁琐,而且目前缺乏用于在相同条件下跨多个模型比较生产设置(如降维、量化、重排序)的基础设施。我们提出了HAKARI-Bench,这是一个轻量级基准测试,它将现有的检索套件重构为小型数据集(Nano-sets):统一格式下包含43种语言的35个基准测试和551个任务,支持在相同条件下对五类检索方法(BM25、稠密、稀疏、后期交互、重排序器)及其效率变体进行与模型无关的比较。在55个模型上,其整体排名以Spearman >0.97复现了官方MTEB检索v2、MMTEB v2检索和英文BEIR(完整版)的结果。HAKARI-Bench并非要取代完整评估;它能够实现快速模型选择、回归检测以及查看质量-效率帕累托前沿。代码、数据和排行榜均以MIT许可证发布。
查看原文
查看缓存全文

缓存时间: 2026/06/23 09:41

论文页面 - HAKARI-Bench: 统一条件下比较检索架构与效率设置的轻量级基准

来源: https://huggingface.co/papers/2606.22778

摘要

HAKARI-Bench 提供了一个轻量级基准,用于在多种配置和语言下比较检索方法,从而实现高效的模型选择和性能分析。

随着检索增强生成 (https://huggingface.co/papers?q=retrieval-augmented%20generation) 和语义搜索 (https://huggingface.co/papers?q=semantic%20search) 的快速普及,选择合适的嵌入 (https://huggingface.co/papers?q=embedding) 和检索配置 (https://huggingface.co/papers?q=retrieval%20configuration) 变得越来越困难。大型检索基准 (https://huggingface.co/papers?q=Large%20retrieval%20benchmarks) 虽然全面,但在开发过程中重新运行成本过高,而且缺乏用于在相同条件下跨多个模型比较生产设置(如降维 (https://huggingface.co/papers?q=dimensionality%20reduction)、量化 (https://huggingface.co/papers?q=quantization)、重排序 (https://huggingface.co/papers?q=reranking))的基础设施。我们提出 HAKARI-Bench,这是一个轻量级基准,它将现有的检索套件重构为小型数据集(Nano-sets (https://huggingface.co/papers?q=Nano-sets)):统一格式下包含 35 个基准和 551 个任务,覆盖 43 种语言,支持在相同条件下进行与模型无关的比较 (https://huggingface.co/papers?q=model-agnostic%20comparison),涵盖五大检索族 (https://huggingface.co/papers?q=retrieval%20families)(BM25 (https://huggingface.co/papers?q=BM25)、密集、稀疏、延迟交互 (https://huggingface.co/papers?q=late%20interaction)、重排序器 (https://huggingface.co/papers?q=rerankers))及其效率变体。在 55 个模型上,其整体排名与官方 MTEB 检索 (https://huggingface.co/papers?q=MTEB%20retrieval) v2、MMTEB v2 (https://huggingface.co/papers?q=MMTEB%20v2) 检索和英文 BEIR (https://huggingface.co/papers?q=BEIR)(完整版)的 Spearman 相关系数 > 0.97。HAKARI-Bench 并非要取代完整评估;它能够实现快速模型选择、回归检测以及读取质量-效率帕累托前沿 (https://huggingface.co/papers?q=Pareto%20frontier)。代码、数据和排行榜均以 MIT 许可证发布。

查看 arXiv 页面 (https://arxiv.org/abs/2606.22778) 查看 PDF (https://arxiv.org/pdf/2606.22778) 项目页面 (https://huggingface.co/spaces/hakari-bench/leaderboard) GitHub2 (https://github.com/hakari-bench/hakari-bench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.22778)

在您的智能体中获取此论文:

hf papers read 2606\.22778

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

暂无模型关联本论文

请在模型 README.md 中引用 arxiv.org/abs/2606.22778,以便从此页面链接它。

引用本论文的数据集0

暂无数据集关联本论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.22778,以便从此页面链接它。

引用本论文的 Space1

包含本论文的收藏0

暂无收藏包含本论文

请将本论文添加到一个收藏 (https://huggingface.co/new-collection)中,以便从此页面链接它。

相似文章

HakushoBench:来自政府白皮书的日语图表和表格VQA基准

Hugging Face Daily Papers

HakushoBench是一个基于政府白皮书构建的日语图表和表格VQA基准,用于评估视觉语言模型对复杂视觉数据的理解能力。该基准对开源权重模型具有挑战性,最佳准确率仅为58.6%,与专有模型之间相差34.9个百分点。

UsefulBench:以决策有用信息为目标的信息检索

arXiv cs.CL

UsefulBench 引入了一个领域特定的基准数据集,用于区分信息检索中的文档相关性和有用性,表明基于相似度的信息检索系统混淆了这两个概念,而大语言模型可以解决这个问题但缺乏领域专业知识。