标签
本研究探究了经过指令微调的大语言模型(Llama-3.1-8B、Qwen2.5-7B、Mistral-7B、Phi-3-mini)能否可靠地分类失语症语篇转录中的正确信息单元。少样本提示使三个模型获得了具有竞争力的F1分数(0.776–0.817),但性能因严重程度而异,且与人类标注的一致性仍不足以实现完全自主使用。
本文提出了ReportQA,一种基于问答的放射学报告评估框架,利用大语言模型回答临床相关问题,相较于现有指标,与放射科医生判断的一致性更好。
本文对ClinicalBERT中的表征偏差进行了计算审计,发现人口统计关联是由模型本身放大,而非继承自训练数据。
本文介绍了一种完全本地化的两阶段 LLM 流水线,使用 MedGemma-27B 从临床笔记中填充病例报告表,在英文测试轨道上实现了 0.55 的宏观 F1 分数,并在本地开源提交中获得了第二名。
EDEN是一个来自意大利急诊科的去标识化临床笔记的大规模语料库,其中一部分注有结构化信息提取的手工标注。其目标是支持意大利语医学应用的LLM开发。
本文证明,与仅使用标签的微调相比,在阿尔茨海默病检测中,使用合成理由数据进行监督微调在多种配置和模型家族中始终损害预测性能。尽管理由质量很高,这种退化仍然存在,并归因于叙事合理性与判别优化之间的结构性冲突。
本文提出了一种迭代不平衡感知微调方法,使用 Qwen3-8B 和 QLoRA 进行心理防御机制分类,在 PsyDefDetect 2026 共享任务中取得了 0.3917 的宏 F1 分数,在 21 支队伍中排名第 4。
介绍了SafeRx-Agent,一种基于知识的多智能体框架,用于安全且可解释的药物推荐,可生成细粒度的ATC代码预测,同时控制药物相互作用和禁忌症,在MIMIC-III和MIMIC-IV数据集上进行了评估。
本文探讨了在临床摘要生成中从导出的大语言模型表征推断敏感信息的风险,表明减少一个向量工件的泄露并不能保证其他工件的隐私。提出了SurfaceLoRA,一种微调方法,可在保持效用的同时减少从目标向量中恢复种族信息的能力。
本文介绍了EPPC-OASIS,一种本体感知适应方法,用于从安全的患者-提供者消息中提取结构化通信行为。该方法在微调过程中结合了Wasserstein对齐与推理优化步骤,在一个去标识化语料库上相比基线取得了适度改进。
MedicalBench是一个新的基准测试,用于评估大型语言模型从电子健康记录中提取医学概念的能力,重点关注隐含推理和证据支撑。它包含823个专家标注的示例,并显示当前模型表现一般,突显了提取隐含表述的医学概念的难度。
本文探讨了使用小样本提示的大语言模型对在线患者咨询进行可操作分诊分类,分为自我护理、预约就诊、紧急临床审查或急诊转诊。最佳模型(Claude Haiku 4.5,12次小样本提示)的macro-F1达到0.475,超过了有监督基线,但作者得出结论:LLMs可以支持分诊优先级排序和选择性人工审核,但不能自主部署。
本文介绍了 ClinicalBench 和 EpiKG 系统,评估了针对 MIMIC-IV 数据在多个人工智能大语言模型(LLM)上的临床问答中基于断言感知的检索能力。研究证明,在检索过程中处理否定和时态信息,相比标准基线能显著提升性能。
本文提出了一种面向部署的压力测试框架,用于评估大型语言模型在识别乳腺癌放疗副作用方面的表现。该研究揭示了LLM在可靠性方面的局限性,例如对文档细微变化的敏感性以及对罕见副作用的低召回率,表明以临床医生整理的清单为输出依据可提高鲁棒性。
RADS 利用强化学习挑选最具信息量的样本进行少样本微调,在低资源且极度不平衡的临床数据集上显著提高迁移学习准确率。
FD-NL2SQL是一个反馈驱动的自然语言转SQL系统,专门用于临床肿瘤学数据库,通过临床医生编辑和基于逻辑的SQL增强实现持续学习。该系统将自然语言问题分解为谓词,检索专家验证的范例,并综合可执行的SQL,具备持续学习能力。