面向南非结核病诊疗的领域专用大语言模型开发与初步评估
摘要
研究人员使用QLoRA与GraphRAG对BioMistral-7B进行微调,构建面向南非结核病诊疗的LLM,在上下文对齐方面优于基座模型。
arXiv:2604.19776v1 公告类型:new
摘要:结核病(TB)是全球最致命的传染病之一,在南非给医疗体系带来沉重负担。本文报告了一项实验研究,开发面向结核病诊疗的领域专用大语言模型(DS-LLM),以减轻患者与医护人员的压力。首先,通过文献综述梳理当前医学领域LLM开发策略;随后,收集南非TB指南、精选TB文献及现有医学基准数据集。我们采用量化低秩适配(QLoRA)算法对医学LLM BioMistral-7B进行微调,并引入GraphRAG实现检索增强生成。最终DS-LLM与原始BioMistral-7B及通用LLM对比,通过自动化指标与定量评分评估。结果显示,DS-LLM在南非结核病诊疗的上下文对齐(词汇、语义、知识)方面表现更佳。
查看缓存全文
缓存时间: 2026/04/23 10:02
# 南非结核病诊疗领域专用大语言模型的开发与初步评估 来源:https://arxiv.org/abs/2604.19776 查看 PDF(https://arxiv.org/pdf/2604.19776) > 摘要:结核病(TB)是全球最致命的传染病之一,在南非,它给该国医疗体系带来沉重负担。本文报告了一项实验研究,旨在开发一款面向结核病诊疗的领域专用大语言模型(DS-LLM),以减轻患者与医护人员的压力。研究首先通过文献综述梳理当前医学领域 LLM 的开发策略;随后收集南非 TB 指南、精选 TB 文献及现有医学基准数据集。我们采用量化低秩适配(QLoRA)算法对医学 LLM BioMistral-7B 进行微调,并引入基于图的检索增强生成(GraphRAG)。通过自动化指标与人工量化评分,将所构建的 DS-LLM 与基础 BioMistral-7B 及通用 LLM 进行对比。结果显示,DS-LLM 在南非结核病场景下的语境对齐(词汇、语义与知识)表现优于基础模型。 ## 投稿历史 来自:Olawande Daramola 教授 [查看邮件](https://arxiv.org/show-email/a3ae5965/2604.19776) **\[v1\]** 2026 年 3 月 28 日(周六)11:22:05 UTC(651 KB)
相似文章
一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架
本文提出了一个多领域红队框架,用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明,高聚合准确率可能掩盖关键失败,而结合临床专家审核的混合评估对于可信的安全性评估是必要的。
用于生物医学声明验证的小型LLM:经济高效的微调、结构化数据集捷径与跨域泛化
使用QLoRA对小型LLM(3B-7B)进行生物医学声明验证的微调,以44.5倍更低的成本实现了比GPT-4o和GPT-5更高的F1分数,并揭示了SciFact中的一个结构伪影。该研究表明,在结构合理的数据上进行训练可实现稳健的跨域迁移。
一种专门用于加速罕见病诊断的推理型大型语言模型:一项随机AI医生辅助试验
本文介绍了RaDaR,一个320亿参数的开源推理型大语言模型,基于公开和合成的罕见病病例进行训练。在诊断基准测试中,其表现优于DeepSeek-R1等更大模型,并在随机试验中将医生诊断准确率提升了21.44个百分点。
@cjzafir: 垂直语言模型(VLMs)正在击败顶级大语言模型。这些参数量7B到15B的小型专精模型在各自的细分领域击败了SoTA模型……
作者演示了,通过使用开源模型和Codex编排进行高性价比微调,小型垂直语言模型(6B-15B)能够在细分基准上超越顶级大语言模型,仅用价值300美元的数据集就取得了成果。
语言模型能否识别乳腺癌放疗的副作用?
本文提出了一种面向部署的压力测试框架,用于评估大型语言模型在识别乳腺癌放疗副作用方面的表现。该研究揭示了LLM在可靠性方面的局限性,例如对文档细微变化的敏感性以及对罕见副作用的低召回率,表明以临床医生整理的清单为输出依据可提高鲁棒性。