通过感知扰动与奖励建模缓解多模态LLM评判中的感知判断偏差

Hugging Face Daily Papers 论文

摘要

本文识别出多模态LLM评判者存在的感知判断偏差,即它们倾向于过度奖励流畅但视觉错误的回答,并提出了数据集PPJD以及利用GRPO与批量排序奖励训练的模型Perception-Judge,以缓解此偏差并提升基于感知的评估质量。

近年来,多模态大语言模型展现出了强大的推理能力,但其作为自动评估器的可靠性仍受制于一个关键弱点:当视觉证据与文本线索冲突时,多模态大语言模型评判者往往倾向于奖励看似合理但视觉上错误的答案,而非基于感知的正确回答。我们识别并系统分析了这一现象,称之为感知判断偏差。通过受控视觉扰动实验,现有的多模态评判者常常锚定于回答文本而非自身的视觉感知,导致评估结果不一致且无法验证。为解决这一问题,我们引入了感知扰动判断数据集,该数据集构建了最小化编辑的反事实回答,从而隔离感知错误并提供可验证的监督信号。基于该数据集,我们开发了一个统一的训练框架,将基于GRPO的结构化奖励与批量排序目标相结合,实现了无需显式成对标签的连贯全局排序。在多项多模态LLM-as-a-Judge基准测试上的实验表明,我们的方法显著提升了感知保真度、排序一致性以及与人类评估的对齐程度。研究结果为训练具有感知基础、可解释且对视觉推理冲突具有鲁棒性的多模态评判者,提供了一条可扩展且可泛化的路径。
查看原文
查看缓存全文

缓存时间: 2026/06/03 15:38

论文页面 - 通过感知扰动和奖励建模缓解多模态LLM评判中的感知判断偏差

来源:https://huggingface.co/papers/2606.02578
我们识别并分析了感知判断偏差(Perceptual Judgment Bias),这是一种多模态LLM评判器在给定视觉证据时,过度奖励流畅或看似合理的回答(即使其中包含视觉错误)的失效模式。

重要的是,这不仅仅是一个感知问题。我们发现,即使评判器能够正确感知图像,它仍可能锚定于回答文本,在评估过程中无法运用自身的视觉证据。

为缓解此问题,我们构建了PPJD——一个包含受控感知扰动的数据集,并使用带有可验证批量排名奖励的GRPO训练了Perception-Judge。这有助于评判器区分正确回答与视觉错误但流畅的回答,从而实现更基于感知、更符合人类判断的多模态评估。

相似文章

审计多模态LLM评分器:临床序数评分中的中央趋势偏差

Hugging Face Daily Papers

本文研究了用于临床序数评分(画钟测试)的多模态LLM中的中央趋势偏差。研究发现,LLM将预测结果向量表中间压缩,对关键极端值造成不成比例的影响。该研究将LLM作为裁判的偏差文献扩展到临床评估领域,强调在部署前需要进行校准感知评估。

基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。

评判电路

arXiv cs.CL

本文研究了LLM-as-a-judge的内部机制,发现模型在中期到后期的多层感知机(MLP)中共享一个稀疏的潜在评估器子图,该子图处理抽象评判,而格式特定的终端分支将评判映射到输出令牌,揭示了格式导致的不一致性的原因。