HAKARI-Bench：在统一条件下比较检索架构和效率设置的轻量级基准测试

Hugging Face Daily Papers 2026/06/22 00:00 论文

benchmark retrieval embedding efficiency nlp evaluation open-source

摘要

HAKARI-Bench是一个轻量级基准测试，用于在多种配置和语言下比较检索方法，支持高效的模型选择和性能分析。它能在保持高相关性的同时，比运行完整基准测试（如MTEB）更快地复现其结果。

随着检索增强生成和语义搜索的迅速普及，选择合适的嵌入和检索配置变得越来越困难。大型检索基准测试虽然全面，但在开发过程中重新运行过于繁琐，而且目前缺乏用于在相同条件下跨多个模型比较生产设置（如降维、量化、重排序）的基础设施。我们提出了HAKARI-Bench，这是一个轻量级基准测试，它将现有的检索套件重构为小型数据集（Nano-sets）：统一格式下包含43种语言的35个基准测试和551个任务，支持在相同条件下对五类检索方法（BM25、稠密、稀疏、后期交互、重排序器）及其效率变体进行与模型无关的比较。在55个模型上，其整体排名以Spearman >0.97复现了官方MTEB检索v2、MMTEB v2检索和英文BEIR（完整版）的结果。HAKARI-Bench并非要取代完整评估；它能够实现快速模型选择、回归检测以及查看质量-效率帕累托前沿。代码、数据和排行榜均以MIT许可证发布。

查看原文

查看缓存全文

缓存时间: 2026/06/23 09:41

论文页面 - HAKARI-Bench: 统一条件下比较检索架构与效率设置的轻量级基准

来源: https://huggingface.co/papers/2606.22778

摘要

HAKARI-Bench 提供了一个轻量级基准，用于在多种配置和语言下比较检索方法，从而实现高效的模型选择和性能分析。

随着检索增强生成 (https://huggingface.co/papers?q=retrieval-augmented%20generation) 和语义搜索 (https://huggingface.co/papers?q=semantic%20search) 的快速普及，选择合适的嵌入 (https://huggingface.co/papers?q=embedding) 和检索配置 (https://huggingface.co/papers?q=retrieval%20configuration) 变得越来越困难。大型检索基准 (https://huggingface.co/papers?q=Large%20retrieval%20benchmarks) 虽然全面，但在开发过程中重新运行成本过高，而且缺乏用于在相同条件下跨多个模型比较生产设置（如降维 (https://huggingface.co/papers?q=dimensionality%20reduction)、量化 (https://huggingface.co/papers?q=quantization)、重排序 (https://huggingface.co/papers?q=reranking)）的基础设施。我们提出 HAKARI-Bench，这是一个轻量级基准，它将现有的检索套件重构为小型数据集（Nano-sets (https://huggingface.co/papers?q=Nano-sets)）：统一格式下包含 35 个基准和 551 个任务，覆盖 43 种语言，支持在相同条件下进行与模型无关的比较 (https://huggingface.co/papers?q=model-agnostic%20comparison)，涵盖五大检索族 (https://huggingface.co/papers?q=retrieval%20families)（BM25 (https://huggingface.co/papers?q=BM25)、密集、稀疏、延迟交互 (https://huggingface.co/papers?q=late%20interaction)、重排序器 (https://huggingface.co/papers?q=rerankers)）及其效率变体。在 55 个模型上，其整体排名与官方 MTEB 检索 (https://huggingface.co/papers?q=MTEB%20retrieval) v2、MMTEB v2 (https://huggingface.co/papers?q=MMTEB%20v2) 检索和英文 BEIR (https://huggingface.co/papers?q=BEIR)（完整版）的 Spearman 相关系数 > 0.97。HAKARI-Bench 并非要取代完整评估；它能够实现快速模型选择、回归检测以及读取质量-效率帕累托前沿 (https://huggingface.co/papers?q=Pareto%20frontier)。代码、数据和排行榜均以 MIT 许可证发布。

查看 arXiv 页面 (https://arxiv.org/abs/2606.22778) 查看 PDF (https://arxiv.org/pdf/2606.22778) 项目页面 (https://huggingface.co/spaces/hakari-bench/leaderboard) GitHub2 (https://github.com/hakari-bench/hakari-bench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.22778)

在您的智能体中获取此论文：

hf papers read 2606\.22778

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本论文的模型0

暂无模型关联本论文

请在模型 README.md 中引用 arxiv.org/abs/2606.22778，以便从此页面链接它。

引用本论文的数据集0

暂无数据集关联本论文

请在数据集 README.md 中引用 arxiv.org/abs/2606.22778，以便从此页面链接它。

引用本论文的 Space1

包含本论文的收藏0

暂无收藏包含本论文

请将本论文添加到一个收藏 (https://huggingface.co/new-collection)中，以便从此页面链接它。

HAKARI-Bench：在统一条件下比较检索架构和效率设置的轻量级基准测试

论文页面 - HAKARI-Bench: 统一条件下比较检索架构与效率设置的轻量级基准

摘要

引用本论文的模型0

引用本论文的数据集0

引用本论文的 Space1

包含本论文的收藏0

相似文章

HakushoBench：来自政府白皮书的日语图表和表格VQA基准

UsefulBench：以决策有用信息为目标的信息检索

MMed-Bench-IR：一个用于多语言医学信息检索的异构基准

@dianetc_: 我们着手构建一个更好的检索器，因此寻找了最难的IR基准测试。针对每个基准，我们询问了还有多少提升空间……

MTR-Suite：一个用于评估和合成对话检索基准的框架

提交意见反馈