重新审视用于3D CT报告生成的LLM适配：规模与诊断先验研究

arXiv cs.CL 2026/06/17 04:00 论文

摘要

本文研究了将大语言模型适配到3D CT报告生成的参数高效策略，提出了RAD3D-Prefix，一个轻量级的诊断先验条件框架，该框架保持LLM冻结，仅需极少的可训练参数。结果表明，冻结更大的LLM（约10亿参数以上）并仅训练轻量级投影层，能够在性能、泛化能力和计算效率之间实现更优的权衡。

arXiv:2606.17213v1 Announce Type: new 摘要：近期多模态学习的进展，包括大语言模型（LLMs）和视觉-语言模型（VLMs），已在自然图像上展现出强大的适应性。然而，将其扩展到医学领域，特别是体积（3D）图像，由于高计算复杂度、体积依赖性以及视觉特征与临床术语之间的语义差距而具有挑战性。在有限的医学数据上简单微调LLMs通常会导致过拟合和临床幻觉，即语言流畅性优先于临床事实性。在本研究中，我们探讨了体积CT报告生成的参数高效适配策略，并引入了RAD3D-Prefix，一个轻量级的诊断先验条件框架，最大限度地减少了对大量参数训练的需求。该模块将图像嵌入与多标签诊断分类逻辑整合，在弥合语义差距的同时保留关键临床细节。通过保持LLM冻结，我们的方法需要极少的可训练参数，并减轻了在小型特定领域数据集上过拟合的风险。通过一项涵盖从9610万到16亿参数LLMs的系统研究，我们发现微调对较小的LLMs最有益，而冻结更大的LLMs（约10亿参数以上）并仅训练轻量级投影层，在性能、泛化能力和计算效率之间提供了更优的权衡。在多个自动指标和一项临床读者研究中，RAD3D-Prefix优于可比较的参数高效基线，并展示了强大的域外泛化能力，同时使用的可训练参数远少于完全微调的替代方案。

查看原文

查看缓存全文

缓存时间: 2026/06/17 05:39

# 重新审视面向3D CT报告生成的LLM适配：扩展规律与诊断先验研究

**来源：** https://arxiv.org/html/2606.17213

\\addauthor Vanshali Sharma\\addauthor Andrea M. Bejar∗\\addauthor Halil Ertugrul Aktas∗\\addauthor Quoc-Huy Trinh\\addauthor Debesh Jha\\addauthor Gorkem Durak\\addauthor Ulas Bagci

\\addinstitution 美国西北大学放射学系，芝加哥
\\addinstitution 美国南达科他大学计算机科学系，南达科他州
\\addinstitution 芬兰阿尔托大学计算机科学系

###### 摘要

\*\*脚注：\*这些作者对本文贡献相同。

近年来，多模态学习（包括大语言模型（LLM）和视觉语言模型（VLM））在自然图像领域展现出强大的适应能力。然而，将其扩展到医学领域，特别是针对体素（3D）图像，由于高计算复杂度、体积依赖性以及视觉特征与临床术语之间的语义鸿沟，仍然具有挑战性。在有限的医学数据上简单微调LLM往往导致过拟合和临床幻觉，即优先考虑语言流畅性而非临床事实性。在本研究中，我们探讨了参数高效的适应策略用于体积CT报告生成，并提出了**RAD3D-Prefix**，一种轻量级的诊断先验条件框架，最大程度减少了对大量参数训练的需求。该模块将图像嵌入与多标签诊断分类logits相结合，在弥合语义鸿沟的同时保留了关键的临床细节。通过保持LLM冻结，我们的方法需要极少的可训练参数，并降低了在小规模、特定领域数据集上过拟合的风险。通过对从96.1M到1.6B参数的LLM进行系统研究，我们发现微调对较小的LLM最有益，而冻结较大的（≈1B+）LLM并仅训练轻量级投影层，在性能、泛化能力和计算效率之间提供了更优的权衡。在多个自动度量和临床读者研究中，**RAD3D-Prefix**优于同类参数高效的基线方法，并在使用远少于完全微调方案的可训练参数的情况下，展现出强大的域外泛化能力。¹¹¹源代码和模型将在审稿流程结束后公开。

## 1 引言

大语言模型（LLM）在大量文本上进行预训练，使它们能够有效泛化并在零样本学习[sanhmultitask, ramesh2021zero]和少样本上下文学习[brown2020language, wei2022chain]等下游任务上表现良好。LLM的这些显著特性激励了它们在多模态应用的各类视觉任务中的采用[guo2023images, li2024dtllm]。大多数方法集中于使用领域特定的图像-文本对进行端到端训练或微调[li2022blip, kim2021vilt]。具体来说，处理医学图像和文本的多模态模型通常依赖微调，因为用于预训练LLM的通用数据中医学示例极少[e3d-gpt]。为此，专门的生物医学LLM被开发出来，如BioGPT[10.1093/bib/bbac409]和BioMedLM[bolton2024biomedlm]，以解决通用LLM在医学领域的局限性。这些模型在PubMed[white2020pubmed]等大规模生物医学文本语料库上进行预训练，以提高对医学术语的识别能力。然而，尽管取得了这些进展，仍然缺乏将LLM系统性整合到3D医学成像中的方法。虽然LLM（包括其冻结或微调范式）在自然图像-文本设置中的采用已被广泛研究[llava, li2022blip]，但它们向体积3D CT报告生成的扩展（其中关键的诊断推理至关重要）却受到的关注相对有限。

参见图注
图1：报告生成中的三个关键挑战：(a) 语义临床鸿沟。(b) 临床幻觉。(c) 计算低效。

参见图注
图2：所提出的投影模块的三种变体：(a) V-1: 前缀包含图像嵌入并对LLM进行微调（适用于较小的LLM），(b) V-2: 前缀包含图像嵌入并冻结LLM（适用于较大的LLM），(c) V-3: 前缀包含图像嵌入和分类logits并冻结LLM。

从3D CT扫描生成临床报告涉及三个关键问题（如图1所示）：(i) **临床幻觉**：在有限的医学图像-文本对上微调大模型常常导致过拟合和“临床幻觉”，即优先考虑语言流畅性而非临床事实性。此外，尽管LLM在医学成像中的应用日益增多，但对于不同规模的模型在3D CT报告生成中冻结与微调的权衡仍然知之甚少。(ii) **计算低效**：微调过程需要优化数百万或数十亿参数，在资源受限的临床环境中会产生巨大的计算开销。(iii) **语义临床鸿沟**：与常规标题和X射线报告不同，3D CT扫描报告具有长序列和复杂的领域特定语言。尽管3D CT扫描相对于2D图像包含全面的诊断信息，但缺乏明确的临床先验知识导致了高维3D视觉特征与医学术语之间的语义临床鸿沟。即使使用领域专门的LLM，这个问题仍然存在。

为了解决上述挑战，我们对5种不同参数规模的LLM进行了针对3D CT报告生成的LLM适配策略的系统研究。我们的研究为LLM训练策略建立了全面的协议，并为3D CT报告生成中冻结与微调范式的选择提供了实用的建议。基于这些发现，我们提出了**RAD3D-Prefix**，一种**轻量级的异常感知前缀条件框架**，通过前缀学习机制将关键的临床先验注入冻结的LLM，同时允许以最少的可训练参数进行更快的训练。为此，我们的方法引入了一个投影模块，生成**异常感知前缀**，这是一个固定长度的嵌入序列，既表示图像特征又表示多标签诊断类别。这种轻量级方法允许LLM在零样本学习设置中使用。

为了系统性地展示我们提出方法的影响，受[mokady2021clipcap, wang2023r2gengpt]启发，我们研究了三种不同的实验设置（变体），如图2所示。在变体**V-1**（图2(a)）中，我们的投影网络和LLM同时训练，前缀仅包含图像嵌入，然后与文本嵌入拼接。在变体**V-2**（图2(b)）中，使用相同的前缀设置，但LLM被冻结。在变体**V-3**（图2(c)）中，我们通过将多异常分类logits与图像前缀表示拼接作为投影输入，将诊断细节纳入冻结的LLM。我们使用较小的模型（几百万参数）和较大的模型（≈1B+参数）研究了这些方法。与[wang2023r2gengpt]不同，我们的工作侧重于改进3D图像嵌入的核心处理及其作为LLM输入时的投影，同时保留临床显著的多异常实体标记。我们的主要贡献总结如下：

- • **首次针对3D CT报告生成进行冻结与微调LLM扩展规律的系统研究**：我们对三种不同的模型变体进行了广泛实验，以确定不同前缀设计的最有效方法。此外，我们跨越5个从96.1M到1.6B参数的LLM，在冻结与微调设置下进行了比较。这提供了可操作性的指导（对于<1B参数微调，对于≈1B+参数冻结），这在3D医学成像中尚未被研究，并且与当前自然图像的发现（LLaVA[llava]和BLIP-2[li2023blip]）相悖。
- • **轻量级异常感知前缀投影模块**：我们提出了一个轻量级的异常感知前缀投影模块，用于以最少的参数训练为3D放射影像生成临床报告。与现有的基于2D图像的视觉语言模型（VLM）[medflamingo]相比，**RAD3D-Prefix**将3D图像嵌入和异常logits与冻结的LLM对齐。从而缩小了语义临床鸿沟，这与自然图像模型[10.5555/3666122.3668264, jin2024unified]不同，后者在部署到医学领域时尤其面临语义鸿沟。虽然基础的前缀学习概念已经存在[mokady2021clipcap]，但我们将其扩展到体积CT报告生成，通过整合视觉特征与诊断先验，提高了临床相关性和参数效率。
- • **使用医学特定度量和临床专家读者研究确保临床相关输出**：我们整合了多异常分类logits，以在生成的报告中保留重要的临床细节。这明确地将临床概念（如渗出、实变）暴露给LLM。我们还使用了医学特定的评估度量来确保诊断精度。此外，由两位临床专家进行的读者研究表明，我们的模型生成的报告比基线和不含临床先验的变体具有更高的临床相关性。
- • **优于相似规模和专门领域模型，同时与更大模型表现相当**：我们提出的方法，尽管训练量极小，但在使用相同参数计数的冻结LLM和专门的领域预训练时，经验上优于现有技术。该模型在性能上也与使用更高参数计数的冻结LLM的方法相当，并通过bootstrap分析得到支持。此外，所有方法使用相同的视觉编码器，表明增益来自异常感知前缀，而非更重的骨干网络。

## 2 相关工作

### 2.1 医学报告生成

Llava-Med[llavamed]、Med-Flamingo[medflamingo]和Med-PaLM[medpalm]是为医学报告生成设计的主要模型，它们使用在大量图像-文本数据集上训练的视觉语言模型（VLM）。然而，这些模型有一个关键限制：由于涉及的高复杂性和计算成本，它们无法处理3D医学图像如CT和MRI扫描。为了解决这个问题，其他模型如CT2Rep[ct2rep]、CT-AGRG[ct-agrg]、E3D-GPT[e3d-gpt]和Med-2E3[med2e3]被开发出来。这些方案从3D图像中捕获全局特征，并将其用作文本解码器的输入以生成报告。**CT2Rep**模型使用3D医学视觉编码器从CT图像中提取全局特征，并将其整合到语言模型中进行报告生成，展示了初步有效性。在此基础上，**CT-AGRG**模型引入了异常引导识别，使框架能够检测异常并生成相应的医学报告描述。此外，**E3D-GPT**引入了一个大规模3D医学图像数据集和一个基于MAE[he2022masked]的3D医学图像基础模型，增强了整体视觉语言模型中视觉信息的表示。虽然这些方法取得了有希望的初步结果，但它们仍然有显著的局限性。它们要么微调较大的LLM（E3D-GPT），使用3D放射影像的简单线性投影（CT-AGRG），要么同时微调图像编码器和文本解码器（CT2Rep）。这可能导致过拟合以及视觉和文本语义之间缺乏适当的对齐。虽然最近的工作[chen2025large]探索了区域引导机制，但我们的工作研究的是针对3D CT报告生成的参数高效和诊断先验条件方法。

### 2.2 大型视觉语言模型（VLM）中的视觉投影器

视觉投影器是设计用于以与文本相同的方式投影视觉数据上下文的模块，有助于对齐图像和文本空间。早期方法如LLaVA[llava]为此提出一个简单的前馈层，取得了有希望的初步结果。后来，LLaMA 3.2[llama32]引入了交叉注意力机制来解决这个对齐挑战。在医学成像背景下，LLaVA-Med模型[llavamed]使用一个简单的MLP投影层，类似于原始的LLaVA模型[llava]。这种方法对2D图像效果良好，但对3D放射影像不有效。对于报告生成，像Med-2E3[med2e3]和Red2RG[chen2024large]这样的模型使用适配器来帮助投影器编码体积数据，但它们的计算成本仍然很高。这是因为它们使用两个编码器来生成视觉信息，显著增加了开销。与我们的方法类似，R2GenGPT[wang2023r2gengpt]模型使用冻结的LLM和一个视觉对齐层。然而，它的对齐层是一个简单的线性投影，可能导致特征对齐问题。为了解决这些挑战，我们提出了**RAD3D-Prefix**，它使用一个基于Transformer的、异常感知的前缀模块。该模块利用前缀投影有效管理图像和文本嵌入空间之间的差异。这种方法提高了计算效率，并提供了更好的对齐，同时保持LLM冻结。

参见图注
图3：所提出的**RAD3D-Prefix**模型概览。该模型通过一个轻量级投影网络将图像编码器的输出和分类logits与文本嵌入空间对齐。

## 3 RAD3D-Prefix

在本节中，我们描述了我们提出的用于CT报告生成的**RAD3D-Prefix**模型。给定一个3D CT扫描图像 \(x_i \in \mathbb{R}^{C \times D \times H \times W}\)，其中 \(C, D, H, W\) 分别表示通道数、深度、高度和宽度，我们的框架旨在生成一个清晰连贯的患者特定的多句子报告印象/发现 \(R\)。我们利用了视觉基础模型和LLM的优势。这种方法允许仅用少量可训练参数实现高效报告生成，同时仍能达到增强的结果并减轻前面提到的局限性。

### 3.1 总体框架

**RAD3D-Prefix** 如图3所示，包含一个预训练且冻结的3D图像编码器 \(f_e\)、一个可训练的基于Transformer的投影网络 \(f_m\) 和一个冻结的文本解码器 \(f_d\)。编码器 \(f_e\) 提取视觉嵌入，解码器 \(f_d\) 可利用这些嵌入生成报告 \(R_i = \{r_1, r_2, ..., r_N\} \in \mathbb{V}\)，其中 \(\mathbb{V}\) 是词汇表，\(N\) 是报告的长度。在此过程中，轻量级网络 \(f_m\) 尝试使用前缀学习机制将从 \(f_e\) 获得的视觉嵌入投影到 \(f_d\) 的token空间中，从而确保两种模态之间的对齐。例如，给定数据集 \(D = (X, \mathcal{R})\)，我们使用 \(f_e\) 提取图像 \(x_i \in X\) 的视觉嵌入 \(\mathbf{z}_i\)：\(\mathbf{z}_i = f_e(x_i) \in \mathbb{R}^v\)。

重新审视用于3D CT报告生成的LLM适配：规模与诊断先验研究

相似文章

$R^2$-dLLM：通过时空冗余削减加速扩散大语言模型

用于生物医学声明验证的小型LLM：经济高效的微调、结构化数据集捷径与跨域泛化

论大语言模型适应性的局限：模型内化先验对标注任务性能的影响

RDP LoRA：基于几何轨迹的大语言模型参数高效适配层选择方法

Prefilling-dLLM：扩散语言模型中长上下文推理的预测性预填充

提交意见反馈