Slop Paradox: 合成标准化如何侵蚀AI重写放射学报告中的临床不确定性和跨模态对齐

arXiv cs.CL 论文

摘要

本文测量了AI重写放射学报告中的信息退化,发现那些为多模态训练生成更干净文本的任务会导致更大的跨模态对齐损失,这一现象被称为'slop paradox'。

arXiv:2606.17791v1 Announce Type: new 摘要:AI辅助临床文档工具越来越多地使用大型语言模型(LLMs)对放射学报告进行概括、标准化和重新格式化。我们对此带来的信息退化进行了受控测量。使用印第安纳大学数据集的450份胸部X光报告,我们通过三种真实的LLM重写任务生成合成版本:EHR概括、标准化重写和教学案例准备。我们测量了实体侵蚀(通过医学命名实体识别)、对冲性语言消失(临床不确定性语言的丢失)和跨模态对齐退化(通过BiomedCLIP图像-文本相似度)。我们的核心发现是信息损失与跨模态保真度之间存在分离。EHR概括在内容层面最具破坏性,侵蚀了51.4%的临床实体和43.7%的对冲性语言,但它几乎完全保留了图像-文本对齐(仅下降2.5%)。旨在生成更干净训练数据的两个任务——标准化重写和教学案例准备——则相反:它们保留了更多实体(分别侵蚀26.8%和29.3%),但导致14.9-16.5%的对齐下降,是EHR概括的六到七倍。我们将此称为slop悖论:使临床文本在多模态训练中看起来更干净的重写,恰恰将其与图像拉开距离。与我们事先指定的假设相反,罕见病理并未优先退化:在九次罕见与常见比较中,没有差异能通过多重比较校正,名义差异甚至朝相反方向(常见>罕见),因此污染对特定条件监测不可见。退化的主要决定因素是AI重写任务的类型,而非临床内容。这些发现对多模态医学AI数据集构建和AI辅助临床文档的治理具有重要意义。
查看原文
查看缓存全文

缓存时间: 2026/06/17 05:42

# 垃圾内容悖论:AI重写放射学报告中合成标准化如何侵蚀临床不确定性与跨模态对齐

来源:https://arxiv.org/html/2606.17791
Samar Ansari 计算与工程科学学院 切斯特大学 切斯特,CH1 4BJ,英国 m\.ansari@chester\.ac\.uk

###### 摘要

AI辅助的临床文档工具越来越多地使用大型语言模型(LLM)对放射学报告进行摘要、标准化和重格式化。我们对由此导致的信息退化进行了受控测量。利用印第安纳大学数据集中的450份胸部X光报告,我们通过三种逼真的LLM重写任务生成了合成版本:电子健康记录摘要、标准化重写和教学案例准备。我们测量了实体侵蚀(通过医学命名实体识别)、对冲崩溃(临床不确定性语言的丢失)以及跨模态对齐退化(通过BiomedCLIP图像-文本相似度)。我们的核心发现是信息损失与跨模态保真度之间存在分离。电子健康记录摘要在内容层面最具破坏性,侵蚀了51.4%的临床实体和43.7%的对冲语言,但它几乎完全保留了图像-文本对齐(仅下降2.5%)。旨在生成更干净训练数据的两个任务,即标准化重写和教学案例准备,则恰恰相反:它们保留了更多实体(分别侵蚀26.8%和29.3%),但导致14.9–16.5%的对齐下降,是电子健康记录摘要的六到七倍。我们将此称为*垃圾内容悖论*:使临床文本看起来更干净以便于多模态训练的重写,恰恰使其偏离了图像。与我们预先指定的假设相反,罕见病理并未被优先退化:在九次罕见与常见比较中,没有差异能够通过多重比较校正,且名义差异方向相反(常见 >> 罕见),因此污染对特定条件的监测是不可见的。退化的主要决定因素是AI重写任务的类型,而非临床内容。这些发现对多模态医学AI数据集构建以及AI辅助临床文档的治理具有重要意义。

*关键*词放射学报告生成 · 合成数据 · 信息侵蚀 · 临床不确定性 · 跨模态对齐 · BiomedCLIP · 多模态AI · 医疗AI治理

## 1 引言

大型语言模型(LLM)正越来越多地融入临床工作流程。AI辅助文档工具为电子健康记录(EHR)摘要放射学报告,以标准化格式重写临床记录,并从真实患者案例生成教学材料[7, 1, 19]。这些应用响应了现实压力:据估计,英国97%的影像科室无法跟上报告工作负荷[18]。基于GPT-4o构建的AI数字抄写员已在部署系统中生成了数万份临床文档[7],而基于Llama-2的检索增强摘要技术在结构化EHR字段上达到了99%的准确率[1]。

然而,一个关键问题仍未得到充分研究:当放射学报告经过LLM处理后,其临床信息内容会发生什么变化?Goodman等人[9]警告说,AI生成的临床摘要带来的风险不仅仅是简单的不准确,还包括“完善叙事”错误,即模型虚构出临床合理但未经支持的细节。AI生成内容降低信息质量的更广泛现象已在多个领域被记录,被称为“AI垃圾内容”和递归数据污染框架[4, 2],有证据表明,仅250份受损文档就足以将持久性偏见引入大规模模型。在医学领域,这种退化的后果并非文化同质化,而是潜在的诊断失败。

尽管担忧日益增加,但尚无研究系统测量当临床放射学报告被LLM合成重写时发生的特定类型和幅度的信息损失。先前关于自动放射学报告生成的工作侧重于生成质量指标,如BLEU和临床准确率分数[18, 10, 12],而非过程中被*破坏*的信息。关于临床不确定性语言的研究已确定,对冲表达出现在约35%的放射学报告中[18],并具有特定的、可排序的诊断意义[16],但没有研究考察AI重写是保留还是消除了这种语言。在多模态环境中,像BiomedCLIP[20]这样的模型依赖于配对的图像-文本数据,然而没有研究量化合成报告文本如何降低临床图像与其配对报告之间的对齐。

本文通过一个基于印第安纳大学胸部X光数据集[8]的受控实验来解决这些空白。我们使用三种基于LLM的重写任务生成了450份放射学报告的合成版本,这些任务模拟了现实的污染载体:电子健康记录摘要、标准化临床重格式化以及教学案例准备。我们测量了信息退化的三个维度:*实体侵蚀*(丢失的临床实体)、*对冲崩溃*(丢失的临床不确定性语言)和*跨模态错位*(通过BiomedCLIP余弦相似度衡量的图像-文本对齐退化)。我们还测试了这些影响是否不成比例地影响罕见与常见病理,这一假设源于模型崩溃研究中观察到的分布收窄现象[14, 2]。

我们的核心发现是,重写任务破坏的信息量与其降低的图像-文本对应度之间存在分离。电子健康记录摘要在内容层面最具破坏性,侵蚀了51.4%的临床实体和43.7%的对冲语言,但它几乎完全保留了跨模态对齐(仅下降2.5%),因为它保留了核心诊断印象。明确旨在为下游模型训练生成更干净数据的两个任务,即标准化重写和教学案例准备,行为恰恰相反:它们保留了更多临床实体,但通过扩展和重构报告,使文本与其配对图像的距离增加了14.9–16.5%,这是电子健康记录摘要导致的漂移的六到七倍。我们将其称为*垃圾内容悖论*:使临床文本看起来更干净以便于多模态训练的重写,恰恰是降低此类训练所依赖的图像-文本对应度的因素。我们进一步发现,这种退化并未优先针对罕见病理;没有一项罕见与常见差异能够通过多重比较校正(第4节),使得污染对特定条件的性能监控是不可见的。这些结果对多模态医学AI训练以及AI辅助临床文档的治理具有直接影响。

## 2 相关工作

自动放射学报告生成随着基于Transformer的架构和视觉-语言模型的发展而进步。Sloan等人[18]提供了一份全面综述,指出该领域仍缺乏用于临床有效性的特定领域评估指标。Tanno等人[19]证明,视觉-语言模型可以生成报告,专家经常将其评分与人类撰写的报告相当。在一项小型比较研究(n=28)中,Nakaura等人[12]发现,GPT-4在放射学报告上的Top-1诊断准确率仅为54%,而人类放射科医生为100%。Goswami等人[10]引入了MediVLM,证明合成临床文本可以作为下游模型训练的替代监督。这些研究侧重于生成质量,而非测量生成过程中的信息损失。

临床不确定性与对冲语言在放射学中被确立为一种有意的沟通实践,约35%的报告中含有不确定性表达[18]。Rabaey等人[16]开发了Lunguage++框架,通过对42个对冲短语进行基于LLM的排序来量化显式不确定性,表明它们传达了特定的概率水平(对于暂定发现,平均为0.459)。尽管这一重要性已得到确认,但尚无先前研究测量AI重写是保留还是破坏对冲语言。

合成数据与模型崩溃风险在AI领域已有记录。Ott[14]形式化了上下文学习与模型崩溃之间的联系,表明合成数据会导致分布收窄。Sizikova等人[17]调查了放射影像中的合成数据,将其作为解决数据稀缺性的方案提出,同时承认关于保真度的开放性问题。一项关于AI生成引用捏造的相关研究[3]表明,100%的捏造引用通过复合故障模式逃避了专家同行评审,说明了科学知识基础设施中相同的污染动态。先前关于AI生成内容污染的研究[2]建立了一个递归污染框架,展示了跨领域降低信息质量的反馈循环。本研究将这些关注扩展到临床领域,通过实证测量一个特定的故障模式:在合成文本生成时刻、任何递归训练发生之前的信息损失。

医学AI中的跨模态对齐已通过像BiomedCLIP[20]这样的模型进行了研究,该模型在1500万对生物医学图像-文本对上进行预训练。Li等人[11]提出了用于医学视觉-语言任务中跨模态语义对齐的TGIAlign。Pandey等人[15]表明,微调BiomedCLIP可改善临床任务的跨模态整合。这些研究在假设高质量文本输入的前提下优化对齐;没有一项研究考察合成退化文本如何影响对齐。我们的工作通过测量不同类型合成重写导致的对齐下降来填补这一空白。

## 3 方法

### 3.1 数据集与分层

我们使用印第安纳大学胸部X光数据集[8](3,826份报告,配有配对的正位胸部X光图像和MeSH注释)。MeSH术语采用分层结构(例如,“airspace disease/lung/base/right/mild”);我们通过移除解剖学和严重性限定符提取了根病理术语。出现在≥5%报告中的根病理被分类为*常见*(8种条件),出现在<2%报告中的被分类为*罕见*(323种条件);位于中间2-5%区间的根标签(例如,胸腔积液、肺结节、气腔疾病)则被视为两者都不是。然后根据以下规则将每份报告分配到一个组:任何至少带有一个罕见标签的报告被分配到*罕见*组(即使常见标签同时存在,罕见也优先);带有常见标签但没有罕见标签的报告形成*常见*组;既没有罕见也没有常见标签的报告形成*正常*组。正常组主要由无阳性发现的检查组成,但也包含其唯一标签落在2-5%中频区间的报告。从完整数据集中,我们抽取了一个分层随机样本(每组150份;随机种子42),在α=0.05(双侧)条件下,为Mann-Whitney U检验中的中等效应(d≥0.4)提供了>0.80的统计功效。我们在第5节中指出,优先规则和正常组的异质性减弱了罕见与常见之间的对比。

### 3.2 合成报告生成

我们使用Gemini 2.5 Flash生成了合成版本,采用三个提示来模拟现实的污染载体:

- • 电子健康记录摘要:“将以下放射学报告摘要以纳入患者的医疗记录。”模拟AI辅助临床文档。
- • 标准化重写:“以标准化临床格式重写以下放射学报告……适用于训练临床NLP系统。”模拟用于NLP训练的数据集整理。
- • 教学案例:“重写为一份干净、结构良好的示例报告,可用于训练数据集。”模拟教育数据集构建。

温度设置为0.3(禁用模型内部“思考”);每份报告对每个提示处理一次,共生成1,350份合成报告。我们全程使用Gemini 2.5 Flash[6];完整提示文本已包含在发布的代码中。

### 3.3 信息侵蚀指标

实体侵蚀。我们使用scispaCy[13]及其en_core_sci_sm模型提取医学命名实体。对于每一对:

E_erosion = 1 - |{e ∈ E_orig : ∃ e′ ∈ E_synth, match(e, e′)}| / |E_orig|   (1)

其中,如果e和e′相同,或者一个是另一个的子字符串,则match(e, e′)为真。子字符串准则使指标偏向保守估计。在我们的样本中,分母|E_orig|始终为正:每份原始报告至少包含三个提取的实体,因此该指标在整个过程中定义明确。此外,我们通过Gemini(温度0)执行结构化提取,以JSON格式识别发现、否定发现、测量值和建议。

对冲崩溃。我们通过18个正则表达式模式检测不确定性标记:匹配:*possible/possibly*;*probable/probably*;*suggest(s/ing/ive)*;*cannot exclude/cannot rule out*;*may represent/indicate/be*;*could represent/indicate/be*;*suspicious*;*question(able)*;*versus/vs*;*differential includes*;*concern(ing) for*;*consider*;*subtle*;*equivocal*;*uncertain*;*indeterminate*;*cannot be excluded*;以及*not entirely excluded/certain*。对冲崩溃为:

H_collapse = 1 - min(h_synth / h_orig, 1)   (2)

其中h_orig和h_synth分别是原始报告和合成报告中检测到的对冲标记数量。该指标仅针对h_orig > 0的报告计算(n=94)。

跨模态

相似文章