AnchorDiff: 拓扑感知的掩码扩散与基于置信度的重写用于放射学报告生成

arXiv cs.AI 2026/05/19 04:00 论文

radiology report-generation diffusion-models medical-imaging knowledge-graph masked-diffusion clinical

摘要

AnchorDiff提出了一种拓扑感知的掩码扩散框架用于放射学报告生成，整合了基于RadGraph的临床锚点和基于置信度的重写，在MIMIC-CXR和MIMIC-RG4基准测试上取得了最先进的结果。

arXiv:2605.17071v1 公告类型: 新摘要: 放射学报告生成（RRG）旨在从医学图像中自动生成临床准确的文本报告。现有方法主要依赖自回归（AR）语言模型，其因果依赖结构将生成限制为单向从左到右的过程。这种范式可能引入序列偏差，导致模型倾向于遵循刻板的令牌顺序和高频报告模板，而不是完全基于图像特定证据进行生成。在本文中，我们提出了AnchorDiff，这是第一个将知识图谱衍生的临床锚点集成到扩散语言建模中的RRG掩码扩散框架。通过利用双向上下文和迭代细化，AnchorDiff缓解了固定顺序自回归解码的局限性。具体来说，我们引入了一种拓扑感知的训练策略，该策略使用RadGraph衍生的实体层次结构，为临床重要的令牌分配不同的掩码保护和损失权重。我们进一步设计了一种推理时重写策略，通过基于扰动的测试检测不稳定的已提交令牌，并在去噪过程中选择性地修改它们。在MIMIC-CXR和MIMIC-RG4基准测试上的大量实验表明，AnchorDiff达到了最先进（SOTA）的性能，显示了临床上锚定的掩码扩散在放射学报告生成中的有效性。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:38

# AnchorDiff: 拓扑感知的掩码扩散与基于置信度的重写用于放射学报告生成
来源：https://arxiv.org/html/2605.17071

###### 摘要

放射学报告生成（RRG）旨在从医学图像中自动生成临床准确的文本报告。现有方法主要依赖自回归（AR）语言模型，其因果依赖结构将生成过程限制为单向从左到右的流程。这种范式可能引起序列偏差，即模型倾向于遵循刻板的标记顺序和高频报告模板，而非完全基于图像特定证据进行生成。本文提出 **AnchorDiff**，这是首个用于 RRG 的掩码扩散框架，它将基于知识图谱的临床锚点集成到扩散语言建模中。通过利用双向上下文和迭代细化，AnchorDiff 缓解了固定顺序自回归解码的局限性。具体而言，我们引入了一种拓扑感知的训练策略，该策略利用 RadGraph 导出的实体层级为临床重要的标记分配差异化的掩码保护和损失权重。我们进一步设计了一种推理时重写策略，通过基于扰动的测试检测不稳定的已提交标记，并在去噪过程中选择性修订它们。在 MIMIC-CXR 和 MIMIC-RG4 基准上的大量实验表明，AnchorDiff 达到了最先进（SOTA）性能，展示了临床锚定的掩码扩散在放射学报告生成中的有效性。

## 1 引言

先进医学成像方式的普及产生了前所未有的诊断数据量，远远超过了专业放射科医生队伍的增长速度。因此，放射科医生通常承担着每天解读数百份扫描并撰写大量高度重复报告的负担。这种不断升级的工作量必然导致诊断疲劳，增加了遗漏细微或罕见病理发现的风险。为应对这一临床需求，自动化放射学报告生成（RRG）吸引了越来越多的研究关注。给定一张或多张医学图像作为输入，RRG 的目标是生成一份连贯、临床准确的自由文本报告，描述正常解剖结构和任何异常发现。

早期的编码器-解码器 RRG 方法主要通过记忆增强的跨模态交互、疾病标签或区域级视觉定位、知识引导的生成，以及基于原型或专家标记的表示学习来改善图像-文本对齐和报告连贯性（Chen 等，2020，2021；Wang 等，2022，2023a），但仍受限于其相对较小的模型容量。更近期，受高质量视觉-语言模型（VLM）强涌现的推动，一系列前沿方法，包括 LLM-CXR（Lee 等，2024）、MAIRA-1（Hyland 等，2023）和 LLM-RG4（Wang 等，2025），通过利用预训练大语言模型（LLM）中嵌入的丰富医学知识取得了实质性突破。
参见图注 图1：基于自回归模型生成报告中词频分布可以看出，病理术语主要集中在前半部分。

尽管架构多样，这些方法普遍采用自回归（AR）范式，其中每个标记的生成严格受限于其左侧上下文。我们认为这种单向依赖结构在 RRG 场景中引入了一种系统性失败模式，表现为典型的序列偏差：由于标准基准（如 MIMIC-CXR（Johnson 等，2019））中很大比例的报告描述的是正常或频繁复现的发现，AR 条件分布 P(w_t | w_{<t})

AnchorDiff: 拓扑感知的掩码扩散与基于置信度的重写用于放射学报告生成

相似文章

用于交互式放射学报告起草的离散扩散语言模型

面向交互式放射报告起草的离散扩散语言模型

RadAgent：用于胸部CT逐步解读的工具型AI代理

Prob-BBDM：一种用于MRI序列图像到图像翻译的概率性布朗桥扩散模型

DiffScore：超越自回归似然性的文本评估

提交意见反馈