审计多模态LLM评分器:临床序数评分中的中央趋势偏差

Hugging Face Daily Papers 论文

摘要

本文研究了用于临床序数评分(画钟测试)的多模态LLM中的中央趋势偏差。研究发现,LLM将预测结果向量表中间压缩,对关键极端值造成不成比例的影响。该研究将LLM作为裁判的偏差文献扩展到临床评估领域,强调在部署前需要进行校准感知评估。

多模态大语言模型(LLM)在临床环境中作为自动评估器的探索日益增多,但它们在临床序数量表上的评分行为仍知之甚少。我们使用 Shulman 评分框架,在两个公开数据集上对三种前沿 LLM 系列与监督深度学习模型在画钟测试(CDT)图像评分方面进行了基准测试。虽然完全微调的视觉变换器(Vision Transformers)获得了最佳校准性能(MAE 0.52,±1 准确率 91%),但零样本 LLM 在基于容差的一致性上仍具有竞争力(GPT-5 MAE 0.67,±1 准确率 92%),尽管绝对误差更高。然而,逐分数分析显示,所有三种 LLM 系列都表现出明显的中央趋势效应(系统性端点压缩):预测结果被系统性地向量表中间压缩,低端(分数 0 到 1)过度预测,高端(分数 5 到 4)欠预测。这种效应不成比例地影响了临床关键极端值,而这些极端值的准确评分对认知障碍筛查决策影响最大。针对性消融实验表明,无论是涵盖完整分数范围的少样本示例,还是从提示中移除临床术语,都无法消除该效应。我们的发现将 LLM 作为裁判的偏差文献从 NLP 评估扩展到临床评估,并强调在将基于 LLM 的评分器部署到高风险筛查工作流程之前,需要进行校准感知评估和后验校准。
查看原文
查看缓存全文

缓存时间: 2026/05/19 18:33

论文页面 - 审计多模态LLM评分者:临床序数评分中的集中趋势偏差

来源:https://huggingface.co/papers/2605.16386

摘要

大语言模型在评估临床评估时表现出对集中趋势的系统性偏差,尤其影响认知障碍筛查中关键极端分数的准确性。

多模态大语言模型(LLMs)在临床环境中作为自动评估工具的应用日益增多,但它们在临床序数量表上的评分行为仍不明确。我们对比了三个前沿LLM家族与有监督深度学习模型在时钟绘制测试(CDT)图像评分上的表现,使用两个公开数据集和Shulman标准。尽管完全微调的Vision Transformers在校准方面表现最佳(MAE 0.52,容差1内准确率91%),但零样本LLM在基于容差的一致性上仍具竞争力(GPT-5 MAE 0.67,容差1内准确率92%),尽管绝对误差更高。然而,按分数分析显示,所有三个LLM家族均表现出明显的集中趋势效应(系统性端点压缩):预测系统地压缩向量表中间值,低端(分数0到1)高估,高端(分数5到4)低估。该效应不成比例地影响临床关键极端值,而这些极端值的准确评分对认知障碍筛查决策影响最大。针对性消融实验表明,无论是覆盖全分数范围的少样本示例,还是从提示中移除临床术语,都无法消除该效应。我们的发现将LLM作为评判者的偏差文献从NLP评估扩展到临床评估,并强调在部署基于LLM的评分者于高风险筛查流程之前,需要进行校准感知评估和后验校准。

查看arXiv页面 (https://arxiv.org/abs/2605.16386)查看PDF (https://arxiv.org/pdf/2605.16386)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.16386)

在你的agent中获取此论文:

hf papers read 2605.16386

没有最新CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.16386以从本页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.16386以从本页面链接。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.16386以从本页面链接。

包含此论文的收藏0

没有收藏包含此论文

将论文添加到收藏 (https://huggingface.co/new-collection)以从本页面链接。

相似文章

基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。

面向可靠LLM判断的边际自适应置信度排序

arXiv cs.LG

本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。

使用项目反应理论审计LLM基准测试

arXiv cs.CL

本文介绍了一种基于项目反应理论的方法,能够以95%的准确率检测LLM基准测试中的错误标注示例,并将错误追溯到标注启发式方法和注释问题。