标签
MedCUA-Bench是一个新的基准测试,用于评估计算机操作智能体在临床软件任务上的表现,涵盖10个医学领域的18个场景,并包含安全维度。结果显示,当前智能体表现不佳,尤其在真实OpenEMR上,凸显了可靠性方面的显著差距。
AMNESIA 是首个大规模开源医学去学习基准,包含来自 11 种疾病的 8,820 份病历笔记中的 70,560 个问答对,旨在评估 LLM 对事实知识和推理知识的遗忘情况。
本文研究了临床数据时间序列预训练中归纳偏差的作用,提出了PathoFM——一种以编码器为中心的Transformer,在多变量步态窗口上进行了预训练。研究比较了不同的预训练目标,发现以动力学为中心的混合目标在分类和回归任务中实现了最均衡的迁移效果。
本文研究了大型语言模型在临床环境中面对对抗性压力时如何维持正确信念,提出了R-FT微调方法以在平衡可纠正性的同时提升认知韧性,并在医学基准测试中展示了显著的鲁棒性提升。
AnchorDiff提出了一种拓扑感知的掩码扩散框架用于放射学报告生成,整合了基于RadGraph的临床锚点和基于置信度的重写,在MIMIC-CXR和MIMIC-RG4基准测试上取得了最先进的结果。