AnchorDiff: 拓扑感知的掩码扩散与基于置信度的重写用于放射学报告生成
摘要
AnchorDiff提出了一种拓扑感知的掩码扩散框架用于放射学报告生成,整合了基于RadGraph的临床锚点和基于置信度的重写,在MIMIC-CXR和MIMIC-RG4基准测试上取得了最先进的结果。
arXiv:2605.17071v1 公告类型: 新
摘要: 放射学报告生成(RRG)旨在从医学图像中自动生成临床准确的文本报告。现有方法主要依赖自回归(AR)语言模型,其因果依赖结构将生成限制为单向从左到右的过程。这种范式可能引入序列偏差,导致模型倾向于遵循刻板的令牌顺序和高频报告模板,而不是完全基于图像特定证据进行生成。在本文中,我们提出了AnchorDiff,这是第一个将知识图谱衍生的临床锚点集成到扩散语言建模中的RRG掩码扩散框架。通过利用双向上下文和迭代细化,AnchorDiff缓解了固定顺序自回归解码的局限性。具体来说,我们引入了一种拓扑感知的训练策略,该策略使用RadGraph衍生的实体层次结构,为临床重要的令牌分配不同的掩码保护和损失权重。我们进一步设计了一种推理时重写策略,通过基于扰动的测试检测不稳定的已提交令牌,并在去噪过程中选择性地修改它们。在MIMIC-CXR和MIMIC-RG4基准测试上的大量实验表明,AnchorDiff达到了最先进(SOTA)的性能,显示了临床上锚定的掩码扩散在放射学报告生成中的有效性。
查看缓存全文
缓存时间: 2026/05/19 06:38
# AnchorDiff: 拓扑感知的掩码扩散与基于置信度的重写用于放射学报告生成
来源:https://arxiv.org/html/2605.17071
###### 摘要
放射学报告生成(RRG)旨在从医学图像中自动生成临床准确的文本报告。现有方法主要依赖自回归(AR)语言模型,其因果依赖结构将生成过程限制为单向从左到右的流程。这种范式可能引起序列偏差,即模型倾向于遵循刻板的标记顺序和高频报告模板,而非完全基于图像特定证据进行生成。本文提出 **AnchorDiff**,这是首个用于 RRG 的掩码扩散框架,它将基于知识图谱的临床锚点集成到扩散语言建模中。通过利用双向上下文和迭代细化,AnchorDiff 缓解了固定顺序自回归解码的局限性。具体而言,我们引入了一种拓扑感知的训练策略,该策略利用 RadGraph 导出的实体层级为临床重要的标记分配差异化的掩码保护和损失权重。我们进一步设计了一种推理时重写策略,通过基于扰动的测试检测不稳定的已提交标记,并在去噪过程中选择性修订它们。在 MIMIC-CXR 和 MIMIC-RG4 基准上的大量实验表明,AnchorDiff 达到了最先进(SOTA)性能,展示了临床锚定的掩码扩散在放射学报告生成中的有效性。
## 1 引言
先进医学成像方式的普及产生了前所未有的诊断数据量,远远超过了专业放射科医生队伍的增长速度。因此,放射科医生通常承担着每天解读数百份扫描并撰写大量高度重复报告的负担。这种不断升级的工作量必然导致诊断疲劳,增加了遗漏细微或罕见病理发现的风险。为应对这一临床需求,自动化放射学报告生成(RRG)吸引了越来越多的研究关注。给定一张或多张医学图像作为输入,RRG 的目标是生成一份连贯、临床准确的自由文本报告,描述正常解剖结构和任何异常发现。
早期的编码器-解码器 RRG 方法主要通过记忆增强的跨模态交互、疾病标签或区域级视觉定位、知识引导的生成,以及基于原型或专家标记的表示学习来改善图像-文本对齐和报告连贯性(Chen 等,2020,2021;Wang 等,2022,2023a),但仍受限于其相对较小的模型容量。更近期,受高质量视觉-语言模型(VLM)强涌现的推动,一系列前沿方法,包括 LLM-CXR(Lee 等,2024)、MAIRA-1(Hyland 等,2023)和 LLM-RG4(Wang 等,2025),通过利用预训练大语言模型(LLM)中嵌入的丰富医学知识取得了实质性突破。
参见图注 图1:基于自回归模型生成报告中词频分布可以看出,病理术语主要集中在前半部分。
尽管架构多样,这些方法普遍采用自回归(AR)范式,其中每个标记的生成严格受限于其左侧上下文。我们认为这种单向依赖结构在 RRG 场景中引入了一种系统性失败模式,表现为典型的序列偏差:由于标准基准(如 MIMIC-CXR(Johnson 等,2019))中很大比例的报告描述的是正常或频繁复现的发现,AR 条件分布 P(w_t | w_{<t})相似文章
RadAgent:用于胸部CT逐步解读的工具型AI代理
RadAgent是一种使用工具的AI代理,通过可解释的逐步推理生成胸部CT报告,将临床准确率相对提升36.4%,并实现37%的忠实度——这是现有3D视觉语言模型所不具备的能力。该系统提供完全可检查的推理轨迹,使临床医生能够验证和优化诊断输出。
DiffScore:超越自回归似然性的文本评估
本文介绍了 DiffScore,这是一个基于掩码大型扩散语言模型(Masked Large Diffusion Language Models)的文本评估框架,通过利用掩码重建来解决自回归评分中的位置偏差问题。
当信心误导:面向扩散语言模型的后缀锚定与锚邻域置信度调制
研究人员提出一种名为“后缀锚定置信度调制”的无训练方法,通过解决EOT标记和过早解码的问题,改进扩散语言模型中基于置信度的解码。
GraphDiffMed: 知识约束的差异化注意力结合药理学图先验用于药物推荐
GraphDiffMed是一个药物推荐框架,它使用双尺度差异化注意力和药理学图先验来提高在EHR数据上的推荐质量和安全性。在MIMIC-III上的实验显示出相对于基线的持续改进。
SDR:用于放射学报告生成的集合距离奖励
本文提出用于胸部X光报告生成中强化学习的集合距离奖励,该方法利用生成报告与参考报告之间基于嵌入的集合到集合距离。通过GRPO使用这些奖励进行后训练,在监督微调和精确匹配奖励上表现持续更优,并实现了高效的测试时扩展。