标签
介绍了HiMed,一个印地语推理医学语料库和基准套件,以及HiMed-8B,一个采用衰减脚手架奖励的印地语形式医学推理大语言模型,展示了印地语医学推理能力的提升和英印准确率差距的缩小。
介绍 OGCaReBench,这是一个自由形式的检索基准,用于评估 LLM 在需要超越标准指南推理的临床问题上的表现。实验表明,即使是最好的模型也仅能达到 56% 的准确率,但检索增强将性能提升至 82%。
本文对医疗大语言模型(包括定制MedGPT和开源模型)进行了大规模评估,发现其中25-30%的模型事实准确性较低,33.6-54.3%的模型违反操作阈值,揭示了系统性的安全风险。
本文批评了Mark Kaplan通过其平台healtthruth.ai微调医疗大语言模型的方法,指出了在医疗AI中覆盖基础训练的陷阱。