审计多模态LLM评分器:临床序数评分中的中央趋势偏差
摘要
本文研究了用于临床序数评分(画钟测试)的多模态LLM中的中央趋势偏差。研究发现,LLM将预测结果向量表中间压缩,对关键极端值造成不成比例的影响。该研究将LLM作为裁判的偏差文献扩展到临床评估领域,强调在部署前需要进行校准感知评估。
查看缓存全文
缓存时间: 2026/05/19 18:33
论文页面 - 审计多模态LLM评分者:临床序数评分中的集中趋势偏差
来源:https://huggingface.co/papers/2605.16386
摘要
大语言模型在评估临床评估时表现出对集中趋势的系统性偏差,尤其影响认知障碍筛查中关键极端分数的准确性。
多模态大语言模型(LLMs)在临床环境中作为自动评估工具的应用日益增多,但它们在临床序数量表上的评分行为仍不明确。我们对比了三个前沿LLM家族与有监督深度学习模型在时钟绘制测试(CDT)图像评分上的表现,使用两个公开数据集和Shulman标准。尽管完全微调的Vision Transformers在校准方面表现最佳(MAE 0.52,容差1内准确率91%),但零样本LLM在基于容差的一致性上仍具竞争力(GPT-5 MAE 0.67,容差1内准确率92%),尽管绝对误差更高。然而,按分数分析显示,所有三个LLM家族均表现出明显的集中趋势效应(系统性端点压缩):预测系统地压缩向量表中间值,低端(分数0到1)高估,高端(分数5到4)低估。该效应不成比例地影响临床关键极端值,而这些极端值的准确评分对认知障碍筛查决策影响最大。针对性消融实验表明,无论是覆盖全分数范围的少样本示例,还是从提示中移除临床术语,都无法消除该效应。我们的发现将LLM作为评判者的偏差文献从NLP评估扩展到临床评估,并强调在部署基于LLM的评分者于高风险筛查流程之前,需要进行校准感知评估和后验校准。
查看arXiv页面 (https://arxiv.org/abs/2605.16386)查看PDF (https://arxiv.org/pdf/2605.16386)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.16386)
在你的agent中获取此论文:
hf papers read 2605.16386
没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型0
没有模型链接此论文
在模型README.md中引用arxiv.org/abs/2605.16386以从本页面链接。
引用此论文的数据集0
没有数据集链接此论文
在数据集README.md中引用arxiv.org/abs/2605.16386以从本页面链接。
引用此论文的Spaces0
没有Space链接此论文
在Space README.md中引用arxiv.org/abs/2605.16386以从本页面链接。
包含此论文的收藏0
没有收藏包含此论文
将论文添加到收藏 (https://huggingface.co/new-collection)以从本页面链接。
相似文章
通过感知扰动与奖励建模缓解多模态LLM评判中的感知判断偏差
本文识别出多模态LLM评判者存在的感知判断偏差,即它们倾向于过度奖励流畅但视觉错误的回答,并提出了数据集PPJD以及利用GRPO与批量排序奖励训练的模型Perception-Judge,以缓解此偏差并提升基于感知的评估质量。
MM-JudgeBias:评测 MLLM-as-a-Judge 组合偏差的基准
研究者发布 MM-JudgeBias 基准,揭示多模态大模型在充当自动评判器时的系统性组合偏差,对 26 个 SOTA MLLM 在 1,800 条样本上进行测试。
基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测
本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。
面向可靠LLM判断的边际自适应置信度排序
本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。
使用项目反应理论审计LLM基准测试
本文介绍了一种基于项目反应理论的方法,能够以95%的准确率检测LLM基准测试中的错误标注示例,并将错误追溯到标注启发式方法和注释问题。