使用开源权重的大型语言模型从脑部MRI报告中自动提取结构化信息
摘要
本文评估了开源权重的大语言模型LLaMA 3.1在从荷兰语脑部MRI报告中自动提取结构化数据方面的表现。该模型在视觉评分方面取得了高性能,并准确检测了发现结果,而少样本提示改进了对数值变量的提取。
arXiv:2606.07721v1 公告类型:新
摘要:目的:从自由文本放射学报告中自动提取数据有助于大规模研究,但很少有研究评估大型语言模型(LLM)在荷兰神经放射学报告上的表现。方法:我们分析了来自一家三级记忆门诊(2016-2021年)的947份脑部MRI报告,这些报告由顾问神经放射科医生撰写。经过培训的医学生标注了30个变量;其中100份报告进行了双重标注以评估评分者间信度。我们在不同语言(荷兰语与英语翻译)和不同示例选择策略的少样本提示下,评估了开源权重LLM LLaMA 3.1的表现。性能评估采用:分类变量的平衡准确率、计数变量的准确率与平均绝对误差、以及自由文本的文本相似度。指标基于947份报告的10个随机分割计算。结果:LLaMA 3.1在视觉评分上表现出高零样本性能(均值[95%置信区间]):内侧颞叶萎缩:左侧90% [77-100%],右侧96% [94-99%];全脑皮质萎缩:87% [83-91%];Fazekas评分:94% [93-96%]。微出血检出准确率为93% [92-95%],梗死检出准确率为82% [80-84%]。病灶位置的文本相似度达到0.95 [0.95-0.96]。数值变量的性能较低:微出血数量为80% [78-82%],梗死数量为66% [63-68%]。英语翻译结果与之相当。少样本提示提升了数值变量的性能,采用基于结构相似性的选择后,微出血可达92% [90-93%],梗死可达81% [77-85%]。结论:LLaMA 3.1在从荷兰神经放射学报告中提取数据方面显示出强大潜力。少样本提示增强了数值变量的性能,但位置特异性变量仍面临挑战。
查看缓存全文
缓存时间: 2026/06/09 08:52
# 基于开源大语言模型从脑部MRI报告中自动提取结构化信息 来源:https://arxiv.org/abs/2606.07721 作者:Kaouther Mouheb (https://arxiv.org/search/cs?searchtype=author&query=Mouheb,+K), Amos Pomp (https://arxiv.org/search/cs?searchtype=author&query=Pomp,+A), Antoine Manenti (https://arxiv.org/search/cs?searchtype=author&query=Manenti,+A), Romy de Haan (https://arxiv.org/search/cs?searchtype=author&query=de+Haan,+R), Farog Faghir (https://arxiv.org/search/cs?searchtype=author&query=Faghir,+F), Joy Martens (https://arxiv.org/search/cs?searchtype=author&query=Martens,+J), Harro Seelaar (https://arxiv.org/search/cs?searchtype=author&query=Seelaar,+H), Francesco Mattace\-Raso (https://arxiv.org/search/cs?searchtype=author&query=Mattace-Raso,+F), Meike W\. Vernooij (https://arxiv.org/search/cs?searchtype=author&query=Vernooij,+M+W), Frank J\. Wolters (https://arxiv.org/search/cs?searchtype=author&query=Wolters,+F+J), Stefan Klein (https://arxiv.org/search/cs?searchtype=author&query=Klein,+S), Esther E\. Bron (https://arxiv.org/search/cs?searchtype=author&query=Bron,+E+E) 查看PDF (https://arxiv.org/pdf/2606.07721) > 摘要:目的:从自由文本影像报告中自动提取数据有助于大规模研究,但针对荷兰语神经影像报告评估大语言模型性能的研究较少。方法:我们分析了来自一家三级记忆门诊(2016-2021年)的947份脑部MRI报告,均由顾问神经放射科医师撰写。经过培训的医学生标注了三十个变量;其中100份报告进行了双重标注以评估评分者间信度。我们评估了开源大语言模型LLaMA 3.1在不同语言(荷兰语 vs. 英文翻译)以及使用不同示例选择策略的少样本提示下的性能。性能评估采用:分类变量使用平衡准确率,计数值使用准确率和平均绝对误差,自由文本使用文本相似度。所有指标在947份报告的10次随机划分上计算。结果:LLaMA 3.1在视觉评分类别上表现出高零样本性能(均值[95%置信区间]):内侧颞叶萎缩:左侧90%[77-100%],右侧96%[94-99%];全脑皮质萎缩:87%[83-91%];Fazekas评分:94%[93-96%]。微出血提及检测准确率93%[92-95%],梗死提及准确率82%[80-84%]。病灶位置的文本相似度达到0.95[0.95-0.96]。数值变量性能较低:微出血数量80%[78-82%],梗死数量66%[63-68%]。英文翻译结果相当。少样本提示提高了数值变量性能,使用基于结构相似性的选择后,微出血达到92%[90-93%],梗死达到81%[77-85%]。结论:LLaMA 3.1在从荷兰语神经影像报告中提取数据方面显示出强大潜力。少样本提示增强了数值变量的性能,而位置特定变量仍面临挑战。 ## 提交历史 来自:Kaouther Mouheb [查看邮件](https://arxiv.org/show-email/fa603aba/2606.07721) **\[v1\]** 2026年6月5日星期五 15:57:35 UTC (6,056 KB)
相似文章
稀疏自编码器将大脑-LLM对齐映射到皮层语义拓扑
本文使用稀疏自编码器将大语言模型分解为可解释的特征,并表明语义特征能够解释大脑与皮层语义拓扑的对齐,且该结论在英语、中文和法语中均具有泛化性。
@liquidai: 推出 LFM2.5-VL-1.6B-Extract 和 LFM2.5-VL-450M-Extract:返回结构化JSON的视觉语言模型,而非…
Liquid AI发布了LFM2.5-VL-1.6B-Extract和LFM2.5-VL-450M-Extract,这些视觉语言模型能从图像和字段列表中输出结构化JSON。模型为开放权重,提供两种规格。
用于三维框架系统自动化结构分析的智能体大语言模型
本文提出了一种基于自然语言输入的三维框架系统自动化结构分析的智能体大语言模型框架,通过多智能体流水线在十个代表性三维框架上实现了90%的准确率。
Brain-CLIPLM:基于脑电压缩语义表征的语言重建解码
研究人员提出Brain-CLIPLM,一个两阶段脑电到文本解码框架,利用对比学习提取语义锚点,并结合基于检索的大语言模型(LLM)及思维链(CoT)推理进行句子重建。该方法在测试中达到67.55%的Top-5句子检索准确率和85.00%的Top-25准确率,显著优于直接解码基线模型,跨被试评估证实了其良好的泛化能力。研究结果表明,脑电到文本解码应聚焦于恢复压缩后的语义内容,而非完整句子重建。
用于模式约束临床信息抽取的检索增强型大语言模型
本文提出了一种模块化的检索增强生成(RAG)流水线,用于从护理人员与患者的对话转录中提取结构化临床观察结果,采用模式约束提示和第二遍审核,基于Llama和GPT骨干模型,取得了80.36%的F1分数。