HAKARI-Bench:在统一条件下比较检索架构和效率设置的轻量级基准测试
摘要
HAKARI-Bench是一个轻量级基准测试,用于在多种配置和语言下比较检索方法,支持高效的模型选择和性能分析。它能在保持高相关性的同时,比运行完整基准测试(如MTEB)更快地复现其结果。
查看缓存全文
缓存时间: 2026/06/23 09:41
论文页面 - HAKARI-Bench: 统一条件下比较检索架构与效率设置的轻量级基准
来源: https://huggingface.co/papers/2606.22778
摘要
HAKARI-Bench 提供了一个轻量级基准,用于在多种配置和语言下比较检索方法,从而实现高效的模型选择和性能分析。
随着检索增强生成 (https://huggingface.co/papers?q=retrieval-augmented%20generation) 和语义搜索 (https://huggingface.co/papers?q=semantic%20search) 的快速普及,选择合适的嵌入 (https://huggingface.co/papers?q=embedding) 和检索配置 (https://huggingface.co/papers?q=retrieval%20configuration) 变得越来越困难。大型检索基准 (https://huggingface.co/papers?q=Large%20retrieval%20benchmarks) 虽然全面,但在开发过程中重新运行成本过高,而且缺乏用于在相同条件下跨多个模型比较生产设置(如降维 (https://huggingface.co/papers?q=dimensionality%20reduction)、量化 (https://huggingface.co/papers?q=quantization)、重排序 (https://huggingface.co/papers?q=reranking))的基础设施。我们提出 HAKARI-Bench,这是一个轻量级基准,它将现有的检索套件重构为小型数据集(Nano-sets (https://huggingface.co/papers?q=Nano-sets)):统一格式下包含 35 个基准和 551 个任务,覆盖 43 种语言,支持在相同条件下进行与模型无关的比较 (https://huggingface.co/papers?q=model-agnostic%20comparison),涵盖五大检索族 (https://huggingface.co/papers?q=retrieval%20families)(BM25 (https://huggingface.co/papers?q=BM25)、密集、稀疏、延迟交互 (https://huggingface.co/papers?q=late%20interaction)、重排序器 (https://huggingface.co/papers?q=rerankers))及其效率变体。在 55 个模型上,其整体排名与官方 MTEB 检索 (https://huggingface.co/papers?q=MTEB%20retrieval) v2、MMTEB v2 (https://huggingface.co/papers?q=MMTEB%20v2) 检索和英文 BEIR (https://huggingface.co/papers?q=BEIR)(完整版)的 Spearman 相关系数 > 0.97。HAKARI-Bench 并非要取代完整评估;它能够实现快速模型选择、回归检测以及读取质量-效率帕累托前沿 (https://huggingface.co/papers?q=Pareto%20frontier)。代码、数据和排行榜均以 MIT 许可证发布。
查看 arXiv 页面 (https://arxiv.org/abs/2606.22778) 查看 PDF (https://arxiv.org/pdf/2606.22778) 项目页面 (https://huggingface.co/spaces/hakari-bench/leaderboard) GitHub2 (https://github.com/hakari-bench/hakari-bench) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.22778)
在您的智能体中获取此论文:
hf papers read 2606\.22778
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本论文的模型0
暂无模型关联本论文
请在模型 README.md 中引用 arxiv.org/abs/2606.22778,以便从此页面链接它。
引用本论文的数据集0
暂无数据集关联本论文
请在数据集 README.md 中引用 arxiv.org/abs/2606.22778,以便从此页面链接它。
引用本论文的 Space1
包含本论文的收藏0
暂无收藏包含本论文
请将本论文添加到一个收藏 (https://huggingface.co/new-collection)中,以便从此页面链接它。
相似文章
HakushoBench:来自政府白皮书的日语图表和表格VQA基准
HakushoBench是一个基于政府白皮书构建的日语图表和表格VQA基准,用于评估视觉语言模型对复杂视觉数据的理解能力。该基准对开源权重模型具有挑战性,最佳准确率仅为58.6%,与专有模型之间相差34.9个百分点。
UsefulBench:以决策有用信息为目标的信息检索
UsefulBench 引入了一个领域特定的基准数据集,用于区分信息检索中的文档相关性和有用性,表明基于相似度的信息检索系统混淆了这两个概念,而大语言模型可以解决这个问题但缺乏领域专业知识。
MMed-Bench-IR:一个用于多语言医学信息检索的异构基准
MMed-Bench-IR是一个跨六种语言的多语言医学信息检索异构基准,评估跨语言对齐、概念区分和证据检索。它揭示了非英语查询的严重性能下降,凸显了现有仅英语评估的不足。
@dianetc_: 我们着手构建一个更好的检索器,因此寻找了最难的IR基准测试。针对每个基准,我们询问了还有多少提升空间……
作者介绍了OBLIQ-Bench,这是一个新基准,用于评估信息检索系统在明显更难的搜索查询上的表现,而之前的基准测试几乎没有剩余提升空间。
MTR-Suite:一个用于评估和合成对话检索基准的框架
介绍MTR-Suite,一个用于评估和合成对话检索基准的统一框架,具备基于LLM的审计器、用于成本效益对话生成的多智能体流水线,以及一个具有高区分度的基准。