通过感知扰动与奖励建模缓解多模态LLM评判中的感知判断偏差
摘要
本文识别出多模态LLM评判者存在的感知判断偏差,即它们倾向于过度奖励流畅但视觉错误的回答,并提出了数据集PPJD以及利用GRPO与批量排序奖励训练的模型Perception-Judge,以缓解此偏差并提升基于感知的评估质量。
查看缓存全文
缓存时间: 2026/06/03 15:38
论文页面 - 通过感知扰动和奖励建模缓解多模态LLM评判中的感知判断偏差
来源:https://huggingface.co/papers/2606.02578
我们识别并分析了感知判断偏差(Perceptual Judgment Bias),这是一种多模态LLM评判器在给定视觉证据时,过度奖励流畅或看似合理的回答(即使其中包含视觉错误)的失效模式。
重要的是,这不仅仅是一个感知问题。我们发现,即使评判器能够正确感知图像,它仍可能锚定于回答文本,在评估过程中无法运用自身的视觉证据。
为缓解此问题,我们构建了PPJD——一个包含受控感知扰动的数据集,并使用带有可验证批量排名奖励的GRPO训练了Perception-Judge。这有助于评判器区分正确回答与视觉错误但流畅的回答,从而实现更基于感知、更符合人类判断的多模态评估。
相似文章
MM-JudgeBias:评测 MLLM-as-a-Judge 组合偏差的基准
研究者发布 MM-JudgeBias 基准,揭示多模态大模型在充当自动评判器时的系统性组合偏差,对 26 个 SOTA MLLM 在 1,800 条样本上进行测试。
审计多模态LLM评分器:临床序数评分中的中央趋势偏差
本文研究了用于临床序数评分(画钟测试)的多模态LLM中的中央趋势偏差。研究发现,LLM将预测结果向量表中间压缩,对关键极端值造成不成比例的影响。该研究将LLM作为裁判的偏差文献扩展到临床评估领域,强调在部署前需要进行校准感知评估。
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。
评判电路
本文研究了LLM-as-a-judge的内部机制,发现模型在中期到后期的多层感知机(MLP)中共享一个稀疏的潜在评估器子图,该子图处理抽象评判,而格式特定的终端分支将评判映射到输出令牌,揭示了格式导致的不一致性的原因。
基于智能体评估与稳定性感知排序的多模态大语言模型鲁棒检查点选择
本文解决了评估不确定性下多模态大语言模型的鲁棒检查点选择挑战,提出了一个多阶段框架,整合了精心策划的真实世界数据、基于LLM的判断以及带有置信度估计的排序协议。