通过感知扰动与奖励建模缓解多模态LLM评判中的感知判断偏差

Hugging Face Daily Papers 2026/06/01 00:00 论文

multimodal llm-as-judge perceptual-bias reward-modeling grpo evaluation

摘要

本文识别出多模态LLM评判者存在的感知判断偏差，即它们倾向于过度奖励流畅但视觉错误的回答，并提出了数据集PPJD以及利用GRPO与批量排序奖励训练的模型Perception-Judge，以缓解此偏差并提升基于感知的评估质量。

近年来，多模态大语言模型展现出了强大的推理能力，但其作为自动评估器的可靠性仍受制于一个关键弱点：当视觉证据与文本线索冲突时，多模态大语言模型评判者往往倾向于奖励看似合理但视觉上错误的答案，而非基于感知的正确回答。我们识别并系统分析了这一现象，称之为感知判断偏差。通过受控视觉扰动实验，现有的多模态评判者常常锚定于回答文本而非自身的视觉感知，导致评估结果不一致且无法验证。为解决这一问题，我们引入了感知扰动判断数据集，该数据集构建了最小化编辑的反事实回答，从而隔离感知错误并提供可验证的监督信号。基于该数据集，我们开发了一个统一的训练框架，将基于GRPO的结构化奖励与批量排序目标相结合，实现了无需显式成对标签的连贯全局排序。在多项多模态LLM-as-a-Judge基准测试上的实验表明，我们的方法显著提升了感知保真度、排序一致性以及与人类评估的对齐程度。研究结果为训练具有感知基础、可解释且对视觉推理冲突具有鲁棒性的多模态评判者，提供了一条可扩展且可泛化的路径。

查看原文

查看缓存全文

缓存时间: 2026/06/03 15:38

论文页面 - 通过感知扰动和奖励建模缓解多模态LLM评判中的感知判断偏差

来源：https://huggingface.co/papers/2606.02578
我们识别并分析了感知判断偏差（Perceptual Judgment Bias），这是一种多模态LLM评判器在给定视觉证据时，过度奖励流畅或看似合理的回答（即使其中包含视觉错误）的失效模式。

重要的是，这不仅仅是一个感知问题。我们发现，即使评判器能够正确感知图像，它仍可能锚定于回答文本，在评估过程中无法运用自身的视觉证据。

为缓解此问题，我们构建了PPJD——一个包含受控感知扰动的数据集，并使用带有可验证批量排名奖励的GRPO训练了Perception-Judge。这有助于评判器区分正确回答与视觉错误但流畅的回答，从而实现更基于感知、更符合人类判断的多模态评估。

通过感知扰动与奖励建模缓解多模态LLM评判中的感知判断偏差

论文页面 - 通过感知扰动和奖励建模缓解多模态LLM评判中的感知判断偏差

相似文章

MM-JudgeBias：评测 MLLM-as-a-Judge 组合偏差的基准

审计多模态LLM评分器：临床序数评分中的中央趋势偏差

基准是否低估了 LLM 的性能？采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

评判电路

基于智能体评估与稳定性感知排序的多模态大语言模型鲁棒检查点选择

提交意见反馈