MLAIRE: 多语言语言感知信息检索评估协议
摘要
MLAIRE 是一种多语言语言感知信息检索评估协议,它将语义检索准确性与查询语言偏好分离,以更好地评估跨混合语言语料库的检索效用。
查看缓存全文
缓存时间: 2026/05/18 18:27
论文页面 - MLAIRE:多语言语言感知信息检索评估协议
来源:https://huggingface.co/papers/2605.07249
摘要
多语言信息检索评估协议 MLAIRE 将语义检索准确性与查询语言偏好分离,以更好地评估混合语言语料库中的检索实用性。
多语言信息检索 (https://huggingface.co/papers?q=Multilingual%20Information%20Retrieval) 在实际搜索场景中日益重要,用户会在混合语言语料库中发出查询。现有评估主要奖励语言无关的语义相关性,同等对待不同语言的相关段落。然而,检索实用性还取决于检索段落的语言:用户可能更偏好能够阅读和验证的查询语言结果,而查询-段落语言不匹配可能会使检索增强生成 (https://huggingface.co/papers?q=Retrieval-Augmented%20Generation) 系统中的下游依赖和答案验证变得复杂。为了评估这一语言感知维度,我们引入了 MLAIRE,一种多语言语言感知信息检索评估协议,该协议将跨语言语义检索 (https://huggingface.co/papers?q=cross-lingual%20semantic%20retrieval) 与查询语言偏好 (https://huggingface.co/papers?q=query-language%20preference) 分离开来。MLAIRE 构建了包含多种语言平行段落的受控池,从而在存在等价翻译时能够测量语义检索准确性和查询语言偏好 (https://huggingface.co/papers?q=query-language%20preference)。我们提出了语言感知指标 (https://huggingface.co/papers?q=language-aware%20metrics),包括语言偏好率 (https://huggingface.co/papers?q=Language%20Preference%20Rate) (LPR) 和 Lang-nDCG (https://huggingface.co/papers?q=Lang-nDCG),以及一个将语义和查询语言偏好 (https://huggingface.co/papers?q=query-language%20preference) 失败分开的四维分解。评估了 31 个稠密、稀疏和延迟交互检索器 (https://huggingface.co/papers?q=late-interaction%20retrievers) 后,我们表明标准指标掩盖了不同行为:语义强大的检索器可能以非查询语言返回正确内容,而查询语言偏好 (https://huggingface.co/papers?q=query-language%20preference) 更强的检索器可能检索到语义相关性较低的段落。
查看 arXiv 页面 (https://arxiv.org/abs/2605.07249)查看 PDF (https://arxiv.org/pdf/2605.07249)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.07249)
在你的 agent 中获取本文:
hf papers read 2605\.07249
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用本文的模型0
没有模型链接本文
请在模型 README.md 中引用 arxiv.org/abs/2605.07249 以从本页链接。
引用本文的数据集0
没有数据集链接本文
请在数据集 README.md 中引用 arxiv.org/abs/2605.07249 以从本页链接。
引用本文的 Spaces0
没有 Space 链接本文
请在 Space README.md 中引用 arxiv.org/abs/2605.07249 以从本页链接。
包含本文的收藏0
没有收藏包含本文
将本文添加到一个收藏 (https://huggingface.co/new-collection) 以从本页链接。
相似文章
所有语言都重要:理解并缓解多语言 RAG 中的语言偏见
研究者发现多语言 RAG 重排器存在系统性英语与查询语言偏见,提出 LAURA——一种面向效用的对齐方法,通过跨语言检索答案关键文档显著提升性能。
检索增强的语言校准
本文提出检索增强的语言校准(RALC),一种事后流水线方法,通过将语言置信度建模为分布并使用检索增强重写来校准大语言模型中的置信度信号。它引入了忠实度散度指标,并在多个基准测试中展示了显著改进。
MIRA:面向源感知数据选择的中间训练评分锚定方法
MIRA是一个用于大语言模型开发中间训练阶段的数据选择框架,它自适应地按数据源构建质量评分标准,使用教师模型提出维度并蒸馏为轻量级评分器。与全语料训练相比,仅使用一半的token即可实现更优性能。
语码转换信息检索:基准、分析与现有检索器的局限
研究者发布 CSR-L 与 CS-MTEB 基准,发现语码转换查询使 IR 系统性能下降高达 27%,并揭示嵌入空间 divergence 是当前多语言技术无法修复的根本原因。
DFKI-MLT在SemEval-2026任务7中:引导多语言模型走向文化知识
本文介绍了用于SemEval-2026任务7(文化意识)的DFKI-MLT系统,该系统利用来自平行FLORES数据的语言向量,对多语言大语言模型应用激活引导。该系统在多项选择题(MCQ)赛道中达到86.96%的准确率,在17支队伍中排名第7,事后分析表明,提升效果对层敏感,且在不同语言-区域对之间存在差异。