审计多模态LLM评分器：临床序数评分中的中央趋势偏差

Hugging Face Daily Papers 2026/05/11 00:00 论文

llm-bias central-tendency clinical-assessment multimodal-llm calibration clock-drawing-test llm-as-judge

摘要

本文研究了用于临床序数评分（画钟测试）的多模态LLM中的中央趋势偏差。研究发现，LLM将预测结果向量表中间压缩，对关键极端值造成不成比例的影响。该研究将LLM作为裁判的偏差文献扩展到临床评估领域，强调在部署前需要进行校准感知评估。

多模态大语言模型（LLM）在临床环境中作为自动评估器的探索日益增多，但它们在临床序数量表上的评分行为仍知之甚少。我们使用 Shulman 评分框架，在两个公开数据集上对三种前沿 LLM 系列与监督深度学习模型在画钟测试（CDT）图像评分方面进行了基准测试。虽然完全微调的视觉变换器（Vision Transformers）获得了最佳校准性能（MAE 0.52，±1 准确率 91%），但零样本 LLM 在基于容差的一致性上仍具有竞争力（GPT-5 MAE 0.67，±1 准确率 92%），尽管绝对误差更高。然而，逐分数分析显示，所有三种 LLM 系列都表现出明显的中央趋势效应（系统性端点压缩）：预测结果被系统性地向量表中间压缩，低端（分数 0 到 1）过度预测，高端（分数 5 到 4）欠预测。这种效应不成比例地影响了临床关键极端值，而这些极端值的准确评分对认知障碍筛查决策影响最大。针对性消融实验表明，无论是涵盖完整分数范围的少样本示例，还是从提示中移除临床术语，都无法消除该效应。我们的发现将 LLM 作为裁判的偏差文献从 NLP 评估扩展到临床评估，并强调在将基于 LLM 的评分器部署到高风险筛查工作流程之前，需要进行校准感知评估和后验校准。

查看原文

查看缓存全文

缓存时间: 2026/05/19 18:33

论文页面 - 审计多模态LLM评分者：临床序数评分中的集中趋势偏差

来源：https://huggingface.co/papers/2605.16386

摘要

大语言模型在评估临床评估时表现出对集中趋势的系统性偏差，尤其影响认知障碍筛查中关键极端分数的准确性。

多模态大语言模型（LLMs）在临床环境中作为自动评估工具的应用日益增多，但它们在临床序数量表上的评分行为仍不明确。我们对比了三个前沿LLM家族与有监督深度学习模型在时钟绘制测试（CDT）图像评分上的表现，使用两个公开数据集和Shulman标准。尽管完全微调的Vision Transformers在校准方面表现最佳（MAE 0.52，容差1内准确率91%），但零样本LLM在基于容差的一致性上仍具竞争力（GPT-5 MAE 0.67，容差1内准确率92%），尽管绝对误差更高。然而，按分数分析显示，所有三个LLM家族均表现出明显的集中趋势效应（系统性端点压缩）：预测系统地压缩向量表中间值，低端（分数0到1）高估，高端（分数5到4）低估。该效应不成比例地影响临床关键极端值，而这些极端值的准确评分对认知障碍筛查决策影响最大。针对性消融实验表明，无论是覆盖全分数范围的少样本示例，还是从提示中移除临床术语，都无法消除该效应。我们的发现将LLM作为评判者的偏差文献从NLP评估扩展到临床评估，并强调在部署基于LLM的评分者于高风险筛查流程之前，需要进行校准感知评估和后验校准。

查看arXiv页面 (https://arxiv.org/abs/2605.16386)查看PDF (https://arxiv.org/pdf/2605.16386)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2605.16386)

在你的agent中获取此论文：

hf papers read 2605.16386

没有最新CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型0

没有模型链接此论文

在模型README.md中引用arxiv.org/abs/2605.16386以从本页面链接。

引用此论文的数据集0

没有数据集链接此论文

在数据集README.md中引用arxiv.org/abs/2605.16386以从本页面链接。

引用此论文的Spaces0

没有Space链接此论文

在Space README.md中引用arxiv.org/abs/2605.16386以从本页面链接。

包含此论文的收藏0

没有收藏包含此论文

将论文添加到收藏 (https://huggingface.co/new-collection)以从本页面链接。

审计多模态LLM评分器：临床序数评分中的中央趋势偏差

论文页面 - 审计多模态LLM评分者：临床序数评分中的集中趋势偏差

摘要

引用此论文的模型0

引用此论文的数据集0

引用此论文的Spaces0

包含此论文的收藏0

相似文章

通过感知扰动与奖励建模缓解多模态LLM评判中的感知判断偏差

MM-JudgeBias：评测 MLLM-as-a-Judge 组合偏差的基准

基准是否低估了 LLM 的性能？采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

LLM裁判存在暗电流：用于LLM-as-a-Judge评估的心理测量数据表

超越标量分数：探索基于LLM的指标用于放射学报告临床意义评估

提交意见反馈