MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

Hugging Face Daily Papers 04/20/26, 12:00 AM Papers

Summary

Researchers introduce MM-JudgeBias, a benchmark that exposes systematic compositional biases in multimodal large language models when used as automatic judges, testing 26 SOTA MLLMs across 1,800 samples.

Multimodal Large Language Models (MLLMs) have been increasingly used as automatic evaluators-a paradigm known as MLLM-as-a-Judge. However, their reliability and vulnerabilities to biases remain underexplored. We find that many MLLM judges fail to reliably integrate key visual or textual cues, yielding unreliable evaluations when evidence is missing or mismatched, and exhibiting instability under semantically irrelevant perturbations. To address this, we systematically define Compositional Bias in MLLM-as-a-Judge systems and introduce MM-JudgeBias, a benchmark for evaluating it. MM-JudgeBias introduces controlled perturbations across Query, Image, and Response, and evaluates model behavior via two complementary metrics: Bias-Deviation (BD) for sensitivity and Bias-Conformity (BC) for stability. Our dataset of over 1,800 curated and refined multimodal samples, drawn from 29 source benchmarks, enables a fine-grained diagnosis of nine bias types across diverse tasks and domains. Experiments on 26 state-of-the-art MLLMs reveal systematic modality neglect and asymmetric evaluation tendencies, underscoring the need for more reliable judges.

Original Article

View Cached Full Text

Cached at: 04/22/26, 06:17 AM

Paper page - MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

Source: https://huggingface.co/papers/2604.18164

Abstract

Research identifies systematic biases in multimodal large language models used as automatic evaluators, revealing reliability issues and proposing a benchmark for measuring compositional bias through controlled perturbations and specific metrics.

Multimodal Large Language Models(MLLMs) have been increasingly used as automatic evaluators-a paradigm known asMLLM-as-a-Judge. However, their reliability and vulnerabilities to biases remain underexplored. We find that many MLLM judges fail to reliably integrate key visual or textual cues, yielding unreliable evaluations when evidence is missing or mismatched, and exhibiting instability under semantically irrelevant perturbations. To address this, we systematically defineCompositional BiasinMLLM-as-a-Judgesystems and introduceMM-JudgeBias, a benchmark for evaluating it.MM-JudgeBiasintroduces controlled perturbations across Query, Image, and Response, and evaluates model behavior via two complementary metrics:Bias-Deviation(BD) for sensitivity andBias-Conformity(BC) for stability. Our dataset of over 1,800 curated and refined multimodal samples, drawn from 29 source benchmarks, enables a fine-grained diagnosis of nine bias types across diverse tasks and domains. Experiments on 26 state-of-the-art MLLMs reveal systematic modality neglect and asymmetric evaluation tendencies, underscoring the need for more reliable judges.

View arXiv page View PDF Project page GitHub0 Add to collection

Models citing this paper0

No model linking this paper

Cite arxiv.org/abs/2604.18164 in a model README.md to link it from this page.

Datasets citing this paper0

No dataset linking this paper

Cite arxiv.org/abs/2604.18164 in a dataset README.md to link it from this page.

Spaces citing this paper0

No Space linking this paper

Cite arxiv.org/abs/2604.18164 in a Space README.md to link it from this page.

Collections including this paper0

No Collection including this paper

Add this paper to acollectionto link it from this page.

MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

Paper page - MM-JudgeBias: A Benchmark for Evaluating Compositional Biases in MLLM-as-a-Judge

Abstract

Models citing this paper0

Datasets citing this paper0

Spaces citing this paper0

Collections including this paper0

Similar Articles

Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling

A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

Judge Circuits

StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs

The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation

Submit Feedback

Similar Articles

Mitigating Perceptual Judgment Bias in Multimodal LLM-as-a-Judge via Perceptual Perturbation and Reward Modeling

A Systematic Evaluation of Positional Bias in Multi-Video Summarization with MLLMs

StylisticBias: A Few Human Visual Cues Drive Most Social Biases in MLLMs

The Coin Flip Judge? Reliability and Bias in LLM-as-a-Judge Evaluation