使用开源权重的大型语言模型从脑部MRI报告中自动提取结构化信息

arXiv cs.AI 2026/06/09 04:00 论文

摘要

本文评估了开源权重的大语言模型LLaMA 3.1在从荷兰语脑部MRI报告中自动提取结构化数据方面的表现。该模型在视觉评分方面取得了高性能，并准确检测了发现结果，而少样本提示改进了对数值变量的提取。

arXiv:2606.07721v1 公告类型：新摘要：目的：从自由文本放射学报告中自动提取数据有助于大规模研究，但很少有研究评估大型语言模型（LLM）在荷兰神经放射学报告上的表现。方法：我们分析了来自一家三级记忆门诊（2016-2021年）的947份脑部MRI报告，这些报告由顾问神经放射科医生撰写。经过培训的医学生标注了30个变量；其中100份报告进行了双重标注以评估评分者间信度。我们在不同语言（荷兰语与英语翻译）和不同示例选择策略的少样本提示下，评估了开源权重LLM LLaMA 3.1的表现。性能评估采用：分类变量的平衡准确率、计数变量的准确率与平均绝对误差、以及自由文本的文本相似度。指标基于947份报告的10个随机分割计算。结果：LLaMA 3.1在视觉评分上表现出高零样本性能（均值[95%置信区间]）：内侧颞叶萎缩：左侧90% [77-100%]，右侧96% [94-99%]；全脑皮质萎缩：87% [83-91%]；Fazekas评分：94% [93-96%]。微出血检出准确率为93% [92-95%]，梗死检出准确率为82% [80-84%]。病灶位置的文本相似度达到0.95 [0.95-0.96]。数值变量的性能较低：微出血数量为80% [78-82%]，梗死数量为66% [63-68%]。英语翻译结果与之相当。少样本提示提升了数值变量的性能，采用基于结构相似性的选择后，微出血可达92% [90-93%]，梗死可达81% [77-85%]。结论：LLaMA 3.1在从荷兰神经放射学报告中提取数据方面显示出强大潜力。少样本提示增强了数值变量的性能，但位置特异性变量仍面临挑战。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:52

# 基于开源大语言模型从脑部MRI报告中自动提取结构化信息
来源：https://arxiv.org/abs/2606.07721
作者：Kaouther Mouheb (https://arxiv.org/search/cs?searchtype=author&query=Mouheb,+K), Amos Pomp (https://arxiv.org/search/cs?searchtype=author&query=Pomp,+A), Antoine Manenti (https://arxiv.org/search/cs?searchtype=author&query=Manenti,+A), Romy de Haan (https://arxiv.org/search/cs?searchtype=author&query=de+Haan,+R), Farog Faghir (https://arxiv.org/search/cs?searchtype=author&query=Faghir,+F), Joy Martens (https://arxiv.org/search/cs?searchtype=author&query=Martens,+J), Harro Seelaar (https://arxiv.org/search/cs?searchtype=author&query=Seelaar,+H), Francesco Mattace\-Raso (https://arxiv.org/search/cs?searchtype=author&query=Mattace-Raso,+F), Meike W\. Vernooij (https://arxiv.org/search/cs?searchtype=author&query=Vernooij,+M+W), Frank J\. Wolters (https://arxiv.org/search/cs?searchtype=author&query=Wolters,+F+J), Stefan Klein (https://arxiv.org/search/cs?searchtype=author&query=Klein,+S), Esther E\. Bron (https://arxiv.org/search/cs?searchtype=author&query=Bron,+E+E)

查看PDF (https://arxiv.org/pdf/2606.07721)

> 摘要：目的：从自由文本影像报告中自动提取数据有助于大规模研究，但针对荷兰语神经影像报告评估大语言模型性能的研究较少。方法：我们分析了来自一家三级记忆门诊（2016-2021年）的947份脑部MRI报告，均由顾问神经放射科医师撰写。经过培训的医学生标注了三十个变量；其中100份报告进行了双重标注以评估评分者间信度。我们评估了开源大语言模型LLaMA 3.1在不同语言（荷兰语 vs. 英文翻译）以及使用不同示例选择策略的少样本提示下的性能。性能评估采用：分类变量使用平衡准确率，计数值使用准确率和平均绝对误差，自由文本使用文本相似度。所有指标在947份报告的10次随机划分上计算。结果：LLaMA 3.1在视觉评分类别上表现出高零样本性能（均值[95%置信区间]）：内侧颞叶萎缩：左侧90%[77-100%]，右侧96%[94-99%]；全脑皮质萎缩：87%[83-91%]；Fazekas评分：94%[93-96%]。微出血提及检测准确率93%[92-95%]，梗死提及准确率82%[80-84%]。病灶位置的文本相似度达到0.95[0.95-0.96]。数值变量性能较低：微出血数量80%[78-82%]，梗死数量66%[63-68%]。英文翻译结果相当。少样本提示提高了数值变量性能，使用基于结构相似性的选择后，微出血达到92%[90-93%]，梗死达到81%[77-85%]。结论：LLaMA 3.1在从荷兰语神经影像报告中提取数据方面显示出强大潜力。少样本提示增强了数值变量的性能，而位置特定变量仍面临挑战。

## 提交历史

来自：Kaouther Mouheb [查看邮件](https://arxiv.org/show-email/fa603aba/2606.07721) **\[v1\]** 2026年6月5日星期五 15:57:35 UTC (6,056 KB)

使用开源权重的大型语言模型从脑部MRI报告中自动提取结构化信息

相似文章

稀疏自编码器将大脑-LLM对齐映射到皮层语义拓扑

用于三维框架系统自动化结构分析的智能体大语言模型

Brain-CLIPLM：基于脑电压缩语义表征的语言重建解码

用于模式约束临床信息抽取的检索增强型大语言模型

Brain Score 追踪语言的共享属性：来自多种自然语言和结构序列的证据

提交意见反馈