MLAIRE: 多语言语言感知信息检索评估协议

Hugging Face Daily Papers 论文

摘要

MLAIRE 是一种多语言语言感知信息检索评估协议,它将语义检索准确性与查询语言偏好分离,以更好地评估跨混合语言语料库的检索效用。

多语言信息检索在现实搜索环境中变得越来越重要,用户常常对混合语言语料库发出查询。现有评估主要奖励语言无关的语义相关性,无论语言如何,将相关段落等同对待。然而,检索效用还取决于检索到的段落语言:用户可能更倾向于能用查询语言阅读和验证的结果,并且查询与段落之间的语言不匹配会使检索增强生成系统中的下游基础事实验证和答案验证复杂化。为了评估这种语言感知维度,我们引入了 MLAIRE,这是一种多语言语言感知信息检索评估协议,它将跨语言语义检索与查询语言偏好分离开来。MLAIRE 构建了包含跨语言平行段落的受控池,从而能够在存在等价翻译时测量语义检索准确性和查询语言偏好。我们提出了语言感知指标,包括语言偏好率 (LPR) 和 Lang-nDCG,以及一种将语义和查询语言偏好失败分开的 4 路分解方法。通过对 31 个密集、稀疏和后期交互检索器进行评估,我们表明标准指标掩盖了不同的行为:语义强的检索器可能以非查询语言返回正确内容,而查询语言偏好更强的检索器可能检索到语义相关性较低的段落。
查看原文
查看缓存全文

缓存时间: 2026/05/18 18:27

论文页面 - MLAIRE:多语言语言感知信息检索评估协议

来源:https://huggingface.co/papers/2605.07249

摘要

多语言信息检索评估协议 MLAIRE 将语义检索准确性与查询语言偏好分离,以更好地评估混合语言语料库中的检索实用性。

多语言信息检索 (https://huggingface.co/papers?q=Multilingual%20Information%20Retrieval) 在实际搜索场景中日益重要,用户会在混合语言语料库中发出查询。现有评估主要奖励语言无关的语义相关性,同等对待不同语言的相关段落。然而,检索实用性还取决于检索段落的语言:用户可能更偏好能够阅读和验证的查询语言结果,而查询-段落语言不匹配可能会使检索增强生成 (https://huggingface.co/papers?q=Retrieval-Augmented%20Generation) 系统中的下游依赖和答案验证变得复杂。为了评估这一语言感知维度,我们引入了 MLAIRE,一种多语言语言感知信息检索评估协议,该协议将跨语言语义检索 (https://huggingface.co/papers?q=cross-lingual%20semantic%20retrieval) 与查询语言偏好 (https://huggingface.co/papers?q=query-language%20preference) 分离开来。MLAIRE 构建了包含多种语言平行段落的受控池,从而在存在等价翻译时能够测量语义检索准确性和查询语言偏好 (https://huggingface.co/papers?q=query-language%20preference)。我们提出了语言感知指标 (https://huggingface.co/papers?q=language-aware%20metrics),包括语言偏好率 (https://huggingface.co/papers?q=Language%20Preference%20Rate) (LPR) 和 Lang-nDCG (https://huggingface.co/papers?q=Lang-nDCG),以及一个将语义和查询语言偏好 (https://huggingface.co/papers?q=query-language%20preference) 失败分开的四维分解。评估了 31 个稠密、稀疏和延迟交互检索器 (https://huggingface.co/papers?q=late-interaction%20retrievers) 后,我们表明标准指标掩盖了不同行为:语义强大的检索器可能以非查询语言返回正确内容,而查询语言偏好 (https://huggingface.co/papers?q=query-language%20preference) 更强的检索器可能检索到语义相关性较低的段落。

查看 arXiv 页面 (https://arxiv.org/abs/2605.07249)查看 PDF (https://arxiv.org/pdf/2605.07249)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.07249)

在你的 agent 中获取本文:

hf papers read 2605\.07249

没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用本文的模型0

没有模型链接本文

请在模型 README.md 中引用 arxiv.org/abs/2605.07249 以从本页链接。

引用本文的数据集0

没有数据集链接本文

请在数据集 README.md 中引用 arxiv.org/abs/2605.07249 以从本页链接。

引用本文的 Spaces0

没有 Space 链接本文

请在 Space README.md 中引用 arxiv.org/abs/2605.07249 以从本页链接。

包含本文的收藏0

没有收藏包含本文

将本文添加到一个收藏 (https://huggingface.co/new-collection) 以从本页链接。

相似文章

检索增强的语言校准

arXiv cs.CL

本文提出检索增强的语言校准(RALC),一种事后流水线方法,通过将语言置信度建模为分布并使用检索增强重写来校准大语言模型中的置信度信号。它引入了忠实度散度指标,并在多个基准测试中展示了显著改进。

MIRA:面向源感知数据选择的中间训练评分锚定方法

Hugging Face Daily Papers

MIRA是一个用于大语言模型开发中间训练阶段的数据选择框架,它自适应地按数据源构建质量评分标准,使用教师模型提出维度并蒸馏为轻量级评分器。与全语料训练相比,仅使用一半的token即可实现更优性能。

DFKI-MLT在SemEval-2026任务7中:引导多语言模型走向文化知识

arXiv cs.CL

本文介绍了用于SemEval-2026任务7(文化意识)的DFKI-MLT系统,该系统利用来自平行FLORES数据的语言向量,对多语言大语言模型应用激活引导。该系统在多项选择题(MCQ)赛道中达到86.96%的准确率,在17支队伍中排名第7,事后分析表明,提升效果对层敏感,且在不同语言-区域对之间存在差异。