MLAIRE: Multilingual Language-Aware Information Retrieval Evaluation Protocal

Hugging Face Daily Papers 05/08/26, 12:00 AM Papers

Summary

MLAIRE is a multilingual language-aware information retrieval evaluation protocol that separates semantic retrieval accuracy from query-language preference to better assess retrieval utility across mixed-language corpora.

Multilingual Information Retrieval is increasingly important in real-world search settings, where users issue queries over mixed-language corpora. Existing evaluations mainly reward language-agnostic semantic relevance, treating relevant passages equally regardless of language. Yet retrieval utility also depends on the language of the retrieved passages: users may prefer results they can read and verify in the query language, and query--passage language mismatch can complicate downstream grounding and answer verification in Retrieval-Augmented Generation systems. To evaluate this language-aware dimension, we introduce MLAIRE, a Multilingual Language-Aware Information Retrieval Evaluation protocol that disentangles cross-lingual semantic retrieval from query-language preference. MLAIRE constructs controlled pools with parallel passages across languages, enabling measurement of semantic retrieval accuracy and query-language preference when equivalent translations are available. We propose language-aware metrics, including Language Preference Rate (LPR) and Lang-nDCG, together with a 4-way decomposition separating semantic and query-language preference failures. Evaluating 31 dense, sparse, and late-interaction retrievers, we show that standard metrics obscure distinct behaviors: semantically strong retrievers may return correct content in a non-query language, while retrievers with stronger query-language preference may retrieve less semantically relevant passages.

Original Article

View Cached Full Text

Cached at: 05/18/26, 06:27 PM

Paper page - MLAIRE: Multilingual Language-Aware Information Retrieval Evaluation Protocal

Source: https://huggingface.co/papers/2605.07249

Abstract

Multilingual information retrieval evaluation protocol MLAIRE separates semantic retrieval accuracy from query-language preference to better assess retrieval utility across mixed-language corpora.

Multilingual Information Retrievalis increasingly important in real-world search settings, where users issue queries over mixed-language corpora. Existing evaluations mainly reward language-agnostic semantic relevance, treating relevant passages equally regardless of language. Yet retrieval utility also depends on the language of the retrieved passages: users may prefer results they can read and verify in the query language, and query--passage language mismatch can complicate downstream grounding and answer verification inRetrieval-Augmented Generationsystems. To evaluate this language-aware dimension, we introduce MLAIRE, a Multilingual Language-Aware Information Retrieval Evaluation protocol that disentanglescross-lingual semantic retrievalfromquery-language preference. MLAIRE constructs controlled pools with parallel passages across languages, enabling measurement of semantic retrieval accuracy andquery-language preferencewhen equivalent translations are available. We proposelanguage-aware metrics, includingLanguage Preference Rate(LPR) andLang-nDCG, together with a 4-way decomposition separating semantic andquery-language preferencefailures. Evaluating 31 dense, sparse, andlate-interaction retrievers, we show that standard metrics obscure distinct behaviors: semantically strong retrievers may return correct content in a non-query language, while retrievers with strongerquery-language preferencemay retrieve less semantically relevant passages.

View arXiv page View PDF Add to collection

Get this paper in your agent:

hf papers read 2605\.07249

Don’t have the latest CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

Models citing this paper0

No model linking this paper

Cite arxiv.org/abs/2605.07249 in a model README.md to link it from this page.

Datasets citing this paper0

No dataset linking this paper

Cite arxiv.org/abs/2605.07249 in a dataset README.md to link it from this page.

Spaces citing this paper0

No Space linking this paper

Cite arxiv.org/abs/2605.07249 in a Space README.md to link it from this page.

Collections including this paper0

No Collection including this paper

Add this paper to acollectionto link it from this page.

MLAIRE: Multilingual Language-Aware Information Retrieval Evaluation Protocal

Paper page - MLAIRE: Multilingual Language-Aware Information Retrieval Evaluation Protocal

Abstract

Models citing this paper0

Datasets citing this paper0

Spaces citing this paper0

Collections including this paper0

Similar Articles

All Languages Matter: Understanding and Mitigating Language Bias in Multilingual RAG

MMed-Bench-IR: A Heterogeneous Benchmark for Multilingual Medical Information Retrieval

LAMAR: An Open Language-Aware Multilingual Alignment Reranker

Libra: Training the Environment for Agentic Information Retrieval

MEUSLI: a Multilingual Projector for LLM-based ASR and Beyond

Submit Feedback

Similar Articles

All Languages Matter: Understanding and Mitigating Language Bias in Multilingual RAG

MMed-Bench-IR: A Heterogeneous Benchmark for Multilingual Medical Information Retrieval

LAMAR: An Open Language-Aware Multilingual Alignment Reranker

Libra: Training the Environment for Agentic Information Retrieval

MEUSLI: a Multilingual Projector for LLM-based ASR and Beyond