超越标量分数:探索基于LLM的指标用于放射学报告临床意义评估

arXiv cs.CL 论文

摘要

本文研究基于LLM的指标以评估放射学报告生成中的临床意义,识别现有LLM评估器中的判别偏差,并提出训练轻量级可解释指标以改善错误检测与无害变异容忍之间的平衡。

arXiv:2606.18797v1 公告类型:新 摘要:对生成的放射学报告的可靠评估需要严格的临床准确性,因为遗漏关键发现或错误描述放射学观察可能直接影响患者护理。现有指标通过将报告质量降低为一个医学上无依据的标量而模糊了这一要求。尽管大语言模型(LLM)拥有丰富的医学知识,但它们同样难以在临床显著错误和无害变异之间划出可靠的界限。我们使用ReEvalMed基准作为测试平台研究这一界限,并通过检测真实临床错误(“判别性”)和容忍不显著变异(“鲁棒性”)来评估指标级别的临床意义。在8个LLM评估器上,在单遍和双遍设置下,我们发现了一个普遍的判别偏差:模型能有效检测错误,但也过度惩罚了无害的改写。为缓解这一问题,我们综合了4k对报告,并在Qwen3-8B和MedGemma-4B上训练了轻量级可解释指标。我们训练的指标提高了临床意义边界,超越了32B规模的医学LLM,并与专有模型保持竞争力。关键的是,成本更高的双遍设置未能持续提高整体性能,主要是以判别性换取鲁棒性。这些发现表明,单遍训练的指标是成本敏感部署的实用选择,而在需要判别-鲁棒平衡的场景中保留双遍推理。我们将发布数据集和指标。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:46

# 超越标量评分:探索基于大语言模型的放射学报告临床显著性评估指标

**来源**: https://arxiv.org/html/2606.18797

陆清雨¹†  
李若尘²††  
丁亮³  
夏雨菲⁴  
朱友祥⁵  
陶大成¹

¹南洋理工大学  
²慕尼黑工业大学  
³阿里巴巴  
⁴格拉斯哥大学  
⁵麻省大学波士顿分校

qingyu\.lu\.ai@gmail\.com

###### 摘要

对生成的放射学报告进行可靠评估需要严格的临床准确性,因为遗漏关键发现或错误描述影像学观察结果可能直接影响患者诊疗。现有指标通过将报告质量简化为一个脱离医学基础的标量而模糊了这一要求。尽管大语言模型(LLM)拥有丰富的医学知识,但它们同样难以在临床显著错误与无害变异之间划出可靠边界。我们以ReEvalMed基准为测试平台研究这一边界,并从检测真实临床错误(“*判别性*”)和容忍无害变异(“*鲁棒性*”)两个维度评估指标层面的临床显著性。在单次和两次推理设置下对8个LLM评估器的评估中,我们发现了一种普遍的*判别偏差*:模型能有效检测错误,但也过度惩罚无害的改写。为缓解这一问题,我们合成了4000对报告,并在Qwen3-8B和MedGemma-4B上训练了轻量化可解释指标。我们训练的指标显著改善了临床显著性边界,超越了32B规模的医学LLM,并与闭源模型保持竞争力。关键的是,成本更高的两次推理设置未能持续提升整体性能,主要是在用判别性换取鲁棒性。这些发现表明,对于成本敏感的场景,单次推理训练指标是实用选择,而两次推理仅适用于判别性–鲁棒性平衡至关重要的场景。我们将发布数据集和指标。

---

# 超越标量评分:探索基于大语言模型的放射学报告临床显著性评估指标

陆清雨¹†* 李若尘²† 丁亮³ 夏雨菲⁴ 朱友祥⁵ 陶大成¹

¹南洋理工大学  
²慕尼黑工业大学  
³阿里巴巴  
⁴格拉斯哥大学  
⁵麻省大学波士顿分校

qingyu\.lu\.ai@gmail\.com

## 1 引言

图1:8个LLM评估器、2个医学指标以及我们训练后的模型在ReEvalMed上的判别性–鲁棒性准确率。判别偏差:大多数LLM位于对角线下方(“D >> R”)。

放射学报告描述影像学发现(例如,病灶特征、解剖异常),这些发现直接指导临床诊断和治疗Tanno et al. (2025),因此对生成的报告进行临床忠实度评估至关重要。虽然视觉语言模型(VLM)可以从医学图像自动生成此类报告Bannur et al. (2024); Chen et al. (2024),但可靠评估仍是一个悬而未决的挑战。临床医生信任的评估指标应能检测出可能显著影响临床决策的错误,同时容忍风格性或临床无关的变异。然而,正如近期研究Li et al. (2025a)所表明的,传统的词法指标和与人类判断高度相关的基于LLM的医学报告指标(例如GREEN Ostmeier et al. (2024)和RaTEScore Zhao et al. (2024))往往无法区分临床显著错误与微小变异。这种边界模糊削弱了它们作为临床可接受性指标的可靠性。

LLM为之前指标所缺乏的可解释评估提供了一条路径:除了标量评分,它们可以识别错误跨度、分类临床错误方面、并评估临床显著性,从而提供细粒度的反馈。然而,目前关于LLM作为放射学报告评估器的实证验证仍有限,尚不清楚它们的解释能力是否能转化为可靠的临床判断。为此,我们从两个角度研究这一问题:当前开源和闭源LLM的零样本行为,以及有针对性的数据增强和微调能否缩小性能差距。

受近期基于LLM的文本生成评估器启发Lu et al. (2024); Kocmi and Federmann (2023),我们设计了用于放射学评估的单次和两次提示(图2),前者直接输出结构化的错误标注,后者将①错误跨度检测与②临床显著性判断分离。如图1所示,我们观察到一种一致的*判别偏差*:当前的LLM评估器难以区分临床显著差异与无害的报告变异,导致高判别性但低鲁棒性准确率。

图2:基于分数的指标(例如BERTScore)对临床显著错误和无害改写赋予相近的分数。我们的LLM评估器输出结构化的严重程度判断,更好地区分显著错误与无关变异。

为缓解这种判别偏差并更好地界定临床显著性边界,我们使用Claude Sonnet合成了一套平衡的数据集——报告按12个方面和三种错误类型(遗漏、捏造、不准确)进行标注,并经临床医生验证以确保数据质量。为进一步验证合成数据集的有效性,我们基于Qwen3-8B和MedGemma-4B训练了一个放射学报告评估指标。我们训练的指标显著改善了临床显著性边界,优于32B规模的医学LLM,并与闭源LLM保持竞争力。我们进一步发现,两次推理并不能消除错误,而是将错误在判别性和鲁棒性之间重新分配。

我们的贡献有三点:

- **对基于LLM的评估器的分析**。我们在ReEvalMed上系统评估了11个基于分数的指标和8个基于LLM的指标,采用单次和两次LLM提示策略,分析错误模式并揭示了大多数LLM指标中一致的判别偏差。
- **临床基础的合成数据**。我们合成了一套4000对放射学报告的平衡数据集,覆盖ReEvalMed错误分类法的所有12个方面(涵盖遗漏、捏造和事实错误),在跨度层面进行标注并经临床有效性验证。
- **轻量化可解释指标**。基于合成数据,我们通过监督微调(SFT)和强化学习(RL)技术,分别使用单次和两次提示格式训练了Qwen3-8B,实现了78.5%的判别性准确率和70.5%的鲁棒性准确率,超越了32B规模的医学LLM(如Lingshu-32B Xu et al. (2025b)和Hulu-Med-32B Jiang et al. (2025a))。

表1:ReEvalMed错误分类法和测试集组成。该基准涵盖12个错误方面,分为两个评估维度:*判别性*(检测临床显著错误)和*鲁棒性*(容忍临床无关变异),每个维度各200个样本(共400个)。

## 2 预备知识

#### 任务定义

放射学报告评估指标以参考报告("REF")和生成候选报告("TGT")为输入,输出质量判断。传统指标,包括词法指标(BLEU Papineni et al. (2002), ROUGE-L Lin (2004))、基于嵌入的指标(BERTScore Zhang et al. (2019))和临床NLP指标(RadGraph Jain et al. (2021), CheXbert Smit et al. (2020)),都将此判断简化为一个单一的连续分数。然而,标量分数无法区分临床显著错误与无关错误,因为两者在任何标量指标下都可能受到相同的惩罚。因此,我们采用结构化文本输出,明确将每个差异标记为*显著*或*无关*,同时识别其错误跨度和临床方面。这提供了超越标量评分所能表达的细粒度归因。

#### ReEvalMed基准

为了评估指标是否与临床判断一致,ReEvalMed Li et al. (2025a) 提供了一个用于放射学报告评估的细粒度元评估基准。给定成对的参考和候选报告及临床医生定义的显著性标签,ReEvalMed测试指标能否区分临床显著错误与临床无关变异。其标准是与临床医生共同制定的,以反映放射学报告中临床相关的差异。ReEvalMed进一步将差异组织在两个维度上:*错误类型*(遗漏、捏造、不准确)和*错误方面*(例如,位置、严重程度、否定),如表1所示。测试集包含400对来自MIMIC-CXR Johnson et al. (2019)的报告对。

#### 判别性与鲁棒性

ReEvalMed引入了两个沿互补维度的指标来衡量评估质量:

- **判别性**(200个测试样本):检测可能实质性影响诊断或治疗错误的能力,例如将病灶特征从良性改为恶性,或显著改变病灶大小。
- **鲁棒性**(200个测试样本):对临床无害变异(如同义词替换、等价的解剖描述或可忽略的测量差异)不予以惩罚的能力。

对临床显著性敏感的指标应同时在两个维度上达到高准确率,即正确标记临床显著错误,同时容忍无害变异。

## 3 基于LLM的指标分析

### 3.1 LLM作为评估器的方法论

受近期基于LLM的文本生成评估器的启发Lu et al. (2024); Kocmi and Federmann (2023),我们设计了结构化提示,指示LLM比较REF和TGT对,并输出细粒度的错误标注而非标量分数。具体来说,评估器识别错误跨度,并为每个跨度分配三个严重等级之一:*Critical*(内部矛盾严重损害报告可信度)、*Significant*(显著改变临床决策的错误)、*Insignificant*(风格变异或临床无害偏差)。我们为这项任务探索了两种推理范式。

#### 单次推理

LLM在一次提示中接收REF和TGT,直接输出一个包含三个严重桶(critical、significant、insignificant)的JSON对象,每个桶映射错误跨度到其错误方面,并附带自由文本解释。

#### 两次推理

单次推理将跨度检测和严重程度判断耦合到单一输出中,可能导致复合错误。为了解决这个问题,我们将推理解耦为两次:

- **第一次(跨度检测)**:LLM识别REF和TGT之间的所有差异,输出一个包含错误跨度和其方面(例如,pneumothorax -- Description)的JSON数组。
- **第二次(严重程度判断)**:对于每个检测到的跨度,第二次调用输出恰好一个词(Critical、Significant或Insignificant),并基于方面特定标准。

#### D/R分类规则

注意,三个严重等级是分配给单个跨度的*错误级*标签,而D和R是衡量指标预测与临床真实值对齐程度的*指标级*分数。为了桥接这两个层面,我们将跨度级严重程度聚合为二元的报告级预测。记一个TGT-REF对为\(t,r\),设\(n_c\)、\(n_s\)、\(n_i\)为识别到的Critical、Significant、Insignificant跨度的数量:

\[
\text{cls}(t,r) = \begin{cases}
\text{sig.} & n_c + n_s > 0, \\
\text{ins.} & n_c = n_s = 0,\; n_i > 0.
\end{cases}
\tag{1}
\]

判别性分数(D)是在判别性子集上预测sig.的准确率,其中所有对都包含临床显著错误;鲁棒性分数(R)是在鲁棒性子集上预测insig.的准确率,其中所有对只包含临床无关变异。

### 3.2 实验设置

#### 基线指标

我们评估了11个输出连续分数的基于分数的指标:3个NLP指标(BLEU Papineni et al. (2002)、BERTScore Zhang et al. (2019)和AlignScore Zha et al. (2023));4个医学指标(RadGraph Jain et al. (2021)、RaTEScore Zhao et al. (2024)、CheXbert Smit et al. (2020)以及RadBERTScore,后者将通用BERTScore编码器替换为来自RadEval Xu et al. (2025a)的放射学领域编码器);以及4个基于LLM的指标(GREEN Ostmeier et al. (2024),它提示GPT-4进行发现级错误标注;CRIMSON Baharoon et al. (2026),它通过LoRA在14万报告对上微调MedGemma,并使用GPT-5生成的严重性标签;FineRadScore Huang et al. (2024)是一个基于LLM的逐行修正指标;RadFact Bannur et al. (2024)是一个用于放射学报告评估的基于LLM的蕴含指标套件,我们使用其逻辑精确度/召回率分数)。我们在实验中使用GPT-5.1实例化RadFact和FineRadScore。

#### LLM评估器

我们评估了3个闭源LLM(GPT-5.1、Claude Sonnet 4.5、Gemini 3 Pro)和5个开源LLM(Qwen3-Max Yang et al. (2025)、LingShu-32B Xu et al. (2025b)、Hulu-Med-32B Jiang et al. (2025a)、Qwen3-8B Yang et al. (2025)、MedGemma-4B)。所有LLM评估器均使用我们设计的提示(单次和两次)进行推理。我们报告零样本结果,即不提供任何放射学评估示例。我们还将这些LLM评估器与上述专门训练的基于LLM的指标(GREEN、CRIMSON、FineRadScore、RadFact)进行比较。

---

(注意:由于原始内容包含表格和更多后续章节,这里根据要求翻译了前3节。后续部分如果需要可继续。但用户只给了这么多内容?检查用户消息:用户给出的内容到"Qwen3-8BYanget al.\(2025 \(https://arxiv.org/html/2606.18797#bib.bib47\), Hulu\-Med...",实际文章内容在用户消息中似乎被截断了。但用户要求翻译给定的markdown文章内容。我看到的原文最后是"Qwen3-8BYanget al.\(2025 \(https://arxiv.org/html/2606.18797#bib.bib47\), Hulu\-Med\-32BJianget al.\(2025a \(https://arxiv.org/html/2606.18797#bib.bib36\), Qwen3\-8BYanget al.\(2025 \(https://arxiv.org/html/2606.18797#bib.bib47\)\)" 这似乎不完整。但用户消息中确实只给出了这些?用户消息开头是"# Beyond Scalar Scores...",结尾是"Qwen3-8BYanget al.\(2025 \(https://arxiv.org/html/2606.18797#bib.bib47\), Hulu\-Med\-32BJianget al.\(2025a \(https://arxiv.org/html/2606.18797#bib.bib36\), Qwen3\-8BYanget al.\(2025 \(https://arxiv.org/html/2606.18797#bib.bib47\)\)" 后面没有更多内容。可能用户只提供了部分内容。按照要求,我们只翻译用户给出的内容。因此我翻译到用户给出的末尾。注意原文中最后一句不完整,但应保持原样。用户消息中实际上最后还有一个未完成的句子:"LLM\-as\-evaluators We evaluate 3 proprietary LLMs \(GPT\-5\.1, Claude Sonnet 4\.5, Gemini 3 Pro\) and 5 open\-source LLMs \(Qwen3\-MaxYanget al\.\(2025 \(https://arxiv.org/html/2606.18797#bib.bib47\), LingShu\-32BXuet al\.\(2025b \(https://arxiv.org/html/2606.18797#bib.bib35\), Hulu\-Med\-32BJianget al\.\(2025a \(https://arxiv.org/html/2606.18797#bib.bib36\), Qwen3\-8BYanget al\.\(2025 \(https://arxiv.org/html/2606.18797#bib.bib47\), MedGemma\-4B\).",但后面没有继续。我保留原样。# 超越标量评分:探索基于大语言模型的放射学报告临床显著性评估指标

**来源**: https://arxiv.org/html/2606.18797

陆清雨¹†  
李若尘²††  
丁亮³  
夏雨菲⁴  
朱友祥⁵  
陶大成¹

¹南洋理工大学  
²慕尼黑工业大学  
³阿里巴巴  
⁴格拉斯哥大学  
⁵麻省大学波士顿分校

qingyu\.lu\.ai@gmail\.com

###### 摘要

对生成的放射学报告进行可靠评估需要严格的临床准确性,因为遗漏关键发现或错误描述影像学观察结果可能直接影响患者诊疗。现有指标通过将报告质量简化为一个脱离医学基础的标量而模糊了这一要求。尽管大语言模型(LLM)拥有丰富的医学知识,但它们同样难以在临床显著错误与无害变异之间划出可靠边界。我们以ReEvalMed基准为测试平台研究这一边界,并从检测真实临床错误(“*判别性*”)和容忍无害变异(“*鲁棒性*”)两个维度评估指标层面的临床显著性。在单次和两次推理设置下对8个LLM评估器的评估中,我们发现了一种普遍的*判别偏差*:模型能有效检测错误,但也过度惩罚无害的改写。为缓解这一问题,我们合成了4000对报告,并在Qwen3-8B和MedGemma-4B上训练了轻量化可解释指标。我们训练的指标显著改善了临床显著性边界,超越了32B规模的医学LLM,并与闭源模型保持竞争力。关键的是,成本更高的两次推理设置未能持续提升整体性能,主要是在用判别性换取鲁棒性。这些发现表明,对于成本敏感的场景,单次推理训练指标是实用选择,而两次推理仅适用于判别性–鲁棒性平衡至关重要的场景。我们将发布数据集和指标。

---

# 超越标量评分:探索基于大语言模型的放射学报告临床显著性评估指标

陆清雨¹†* 李若尘²† 丁亮³ 夏雨菲⁴ 朱友祥⁵ 陶大成¹

¹南洋理工大学  
²慕尼黑工业大学  
³阿里巴巴  
⁴格拉斯哥大学  
⁵麻省大学波士顿分校

qingyu\.lu\.ai@gmail\.com

## 1 引言

图1:8个LLM评估器、2个医学指标以及我们训练后的模型在ReEvalMed上的判别性–鲁棒性准确率。判别偏差:大多数LLM位于对角线下方(“D >> R”)。

放射学报告描述影像学发现(例如,病灶特征、解剖异常),这些发现直接指导临床诊断和治疗Tanno et al. (2025),因此对生成的报告进行临床忠实度评估至关重要。虽然视觉语言模型(VLM)可以从医学图像自动生成此类报告Bannur et al. (2024); Chen et al. (2024),但可靠评估仍是一个悬而未决的挑战。临床医生信任的评估指标应能检测出可能显著影响临床决策的错误,同时容忍风格性或临床无关的变异。然而,正如近期研究Li et al. (2025a)所表明的,传统的词法指标和与人类判断高度相关的基于LLM的医学报告指标(例如GREEN Ostmeier et al. (2024)和RaTEScore Zhao et al. (2024))往往无法区分临床显著错误与微小变异。这种边界模糊削弱了它们作为临床可接受性指标的可靠性。

LLM为之前指标所缺乏的可解释评估提供了一条路径:除了标量评分,它们可以识别错误跨度、分类临床错误方面、并评估临床显著性,从而提供细粒度的反馈。然而,目前关于LLM作为放射学报告评估器的实证验证仍有限,尚不清楚它们的解释能力是否能转化为可靠的临床判断。为此,我们从两个角度研究这一问题:当前开源和闭源LLM的零样本行为,以及有针对性的数据增强和微调能否缩小性能差距。

受近期基于LLM的文本生成评估器启发Lu et al. (2024); Kocmi and Federmann (2023),我们设计了用于放射学评估的单次和两次提示(图2),前者直接输出结构化的错误标注,后者将①错误跨度检测与②临床显著性判断分离。如图1所示,我们观察到一种一致的*判别偏差*:当前的LLM评估器难以区分临床显著差异与无害的报告变异,导致高判别性但低鲁棒性准确率。

图2:基于分数的指标(例如BERTScore)对临床显著错误和无害改写赋予相近的分数。我们的LLM评估器输出结构化的严重程度判断,更好地区分显著错误与无关变异。

为缓解这种判别偏差并更好地界定临床显著性边界,我们使用Claude Sonnet合成了一套平衡的数据集——报告按12个方面和三种错误类型(遗漏、捏造、不准确)进行标注,并经临床医生验证以确保数据质量。为进一步验证合成数据集的有效性,我们基于Qwen3-8B和MedGemma-4B训练了一个放射学报告评估指标。我们训练的指标显著改善了临床显著性边界,优于32B规模的医学LLM,并与闭源LLM保持竞争力。我们进一步发现,两次推理并不能消除错误,而是将错误在判别性和鲁棒性之间重新分配。

我们的贡献有三点:

- **对基于LLM的评估器的分析**。我们在ReEvalMed上系统评估了11个基于分数的指标和8个基于LLM的指标,采用单次和两次LLM提示策略,分析错误模式并揭示了大多数LLM指标中一致的判别偏差。
- **临床基础的合成数据**。我们合成了一套4000对放射学报告的平衡数据集,覆盖ReEvalMed错误分类法的所有12个方面(涵盖遗漏、捏造和事实错误),在跨度层面进行标注并经临床有效性验证。
- **轻量化可解释指标**。基于合成数据,我们通过监督微调(SFT)和强化学习(RL)技术,分别使用单次和两次提示格式训练了Qwen3-8B,实现了78.5%的判别性准确率和70.5%的鲁棒性准确率,超越了32B规模的医学LLM(如Lingshu-32B Xu et al. (2025b)和Hulu-Med-32B Jiang et al. (2025a))。

表1:ReEvalMed错误分类法和测试集组成。该基准涵盖12个错误方面,分为两个评估维度:*判别性*(检测临床显著错误)和*鲁棒性*(容忍临床无关变异),每个维度各200个样本(共400个)。

## 2 预备知识

#### 任务定义

放射学报告评估指标以参考报告("REF")和生成候选报告("TGT")为输入,输出质量判断。传统指标,包括词法指标(BLEU Papineni et al. (2002)、ROUGE-L Lin (2004))、基于嵌入的指标(BERTScore Zhang et al. (2019))和临床NLP指标(RadGraph Jain et al. (2021)、CheXbert Smit et al. (2020)),都将此判断简化为一个单一的连续分数。然而,标量分数无法区分临床显著错误与无关错误,因为两者在任何标量指标下都可能受到相同的惩罚。因此,我们采用结构化文本输出,明确将每个差异标记为*显著*或*无关*,同时识别其错误跨度和临床方面。这提供了超越标量评分所能表达的细粒度归因。

#### ReEvalMed基准

为了评估指标是否与临床判断一致,ReEvalMed Li et al. (2025a) 提供了一个用于放射学报告评估的细粒度元评估基准。给定成对的参考和候选报告及临床医生定义的显著性标签,ReEvalMed测试指标能否区分临床显著错误与临床无关变异。其标准是与临床医生共同制定的,以反映放射学报告中临床相关的差异。ReEvalMed进一步将差异组织在两个维度上:*错误类型*(遗漏、捏造、不准确)和*错误方面*(例如,位置、严重程度、否定),如表1所示。测试集包含400对来自MIMIC-CXR Johnson et al. (2019)的报告对。

#### 判别性与鲁棒性

ReEvalMed引入了两个沿互补维度的指标来衡量评估质量:

- **判别性**(200个测试样本):检测可能实质性影响诊断或治疗错误的能力,例如将病灶特征从良性改为恶性,或显著改变病灶大小。
- **鲁棒性**(200个测试样本):对临床无害变异(如同义词替换、等价的解剖描述或可忽略的测量差异)不予以惩罚的能力。

对临床显著性敏感的指标应同时在两个维度上达到高准确率,即正确标记临床显著错误,同时容忍无害变异。

## 3 基于LLM的指标分析

### 3.1 LLM作为评估器的方法论

受近期基于LLM的文本生成评估器的启发Lu et al. (2024); Kocmi and Federmann (2023),我们设计了结构化提示,指示LLM比较REF和TGT对,并输出细粒度的错误标注而非标量分数。具体来说,评估器识别错误跨度,并为每个跨度分配三个严重等级之一:*Critical*(内部矛盾严重损害报告可信度)、*Significant*(显著改变临床决策的错误)、*Insignificant*(风格变异或临床无害偏差)。我们为这项任务探索了两种推理范式。

#### 单次推理

LLM在一次提示中接收REF和TGT,直接输出一个包含三个严重桶(critical、significant、insignificant)的JSON对象,每个桶映射错误跨度到其错误方面,并附带自由文本解释。

#### 两次推理

单次推理将跨度检测和严重程度判断耦合到单一输出中,可能导致复合错误。为了解决这个问题,我们将推理解耦为两次:

- **第一次(跨度检测)**:LLM识别REF和TGT之间的所有差异,输出一个包含错误跨度和其方面(例如,pneumothorax -- Description)的JSON数组。
- **第二次(严重程度判断)**:对于每个检测到的跨度,第二次调用输出恰好一个词(Critical、Significant或Insignificant),并基于方面特定标准。

#### D/R分类规则

注意,三个严重等级是分配给单个跨度的*错误级*标签,而D和R是衡量指标预测与临床真实值对齐程度的*指标级*分数。为了桥接这两个层面,我们将跨度级严重程度聚合为二元的报告级预测。记一个TGT-REF对为\(t,r\),设\(n_c\)、\(n_s\)、\(n_i\)为识别到的Critical、Significant、Insignificant跨度的数量:

\[
\text{cls}(t,r) = \begin{cases}
\text{sig.} & n_c + n_s > 0, \\
\text{ins.} & n_c = n_s = 0,\; n_i > 0.
\end{cases}
\tag{1}
\]

判别性分数(D)是在判别性子集上预测sig.的准确率,其中所有对都包含临床显著错误;鲁棒性分数(R)是在鲁棒性子集上预测insig.的准确率,其中所有对只包含临床无关变异。

### 3.2 实验设置

#### 基线指标

我们评估了11个输出连续分数的基于分数的指标:3个NLP指标(BLEU Papineni et al. (2002)、BERTScore Zhang et al. (2019)和AlignScore Zha et al. (2023));4个医学指标(RadGraph Jain et al. (2021)、RaTEScore Zhao et al. (2024)、CheXbert Smit et al. (2020)以及RadBERTScore,后者将通用BERTScore编码器替换为来自RadEval Xu et al. (2025a)的放射学领域编码器);以及4个基于LLM的指标(GREEN Ostmeier et al. (2024),它提示GPT-4进行发现级错误标注;CRIMSON Baharoon et al. (2026),它通过LoRA在14万报告对上微调MedGemma,并使用GPT-5生成的严重性标签;FineRadScore Huang et al. (2024)是一个基于LLM的逐行修正指标;RadFact Bannur et al. (2024)是一个用于放射学报告评估的基于LLM的蕴含指标套件,我们使用其逻辑精确度/召回率分数)。我们在实验中使用GPT-5.1实例化RadFact和FineRadScore。

#### LLM评估器

我们评估了3个闭源LLM(GPT-5.1、Claude Sonnet 4.5、Gemini 3 Pro)和5个开源LLM(Qwen3-Max Yang et al. (2025)、LingShu-32B Xu et al. (2025b)、Hulu-Med-32B Jiang et al. (2025a)、Qwen3-8B Yang et al. (2025)、MedGemma-4B)。

相似文章

ReportQA: 基于问答的放射学报告评估

arXiv cs.CL

本文提出了ReportQA,一种基于问答的放射学报告评估框架,利用大语言模型回答临床相关问题,相较于现有指标,与放射科医生判断的一致性更好。

审计多模态LLM评分器:临床序数评分中的中央趋势偏差

Hugging Face Daily Papers

本文研究了用于临床序数评分(画钟测试)的多模态LLM中的中央趋势偏差。研究发现,LLM将预测结果向量表中间压缩,对关键极端值造成不成比例的影响。该研究将LLM作为裁判的偏差文献扩展到临床评估领域,强调在部署前需要进行校准感知评估。

当无基准存在时:验证无真实标签的LLM安全评分比较

Hugging Face Daily Papers

本文介绍了一个框架,用于在没有真实标签的情况下验证LLM安全评分比较,通过使用'工具有效性链'来建立部署证据。该方法通过一个名为SimpleAudit的本地优先工具在挪威安全包上进行了演示,并比较了Borealis和Gemma 3等模型。

Review Arcade:论LLM评审的人类对齐与可游戏性

Hugging Face Daily Papers

本文利用1000份真实的ACL 2025投稿,研究了LLM生成的评审与人类判断的对齐情况。研究发现,两者的一致性有限,且在不同模型和提示词下存在不稳定性。此外,文章提出了一种无需实质性修改即可人为提高评分的方法。作者建议不应仅依赖LLM评审,并呼吁就其在应对日益增长的投稿量中的作用展开讨论。