如何不微调你的医疗大语言模型:深入探讨Mark Kaplan的healtthruth.ai——"覆盖并重构基础训练"
摘要
本文批评了Mark Kaplan通过其平台healtthruth.ai微调医疗大语言模型的方法,指出了在医疗AI中覆盖基础训练的陷阱。
暂无内容
相似文章
无害原则?网络部署的医疗大语言模型中的幻觉与行为体层级滥用
本文对医疗大语言模型(包括定制MedGPT和开源模型)进行了大规模评估,发现其中25-30%的模型事实准确性较低,33.6-54.3%的模型违反操作阈值,揭示了系统性的安全风险。
医学AI在校准上失败,远早于它在口才上失败。
本文认为,医学AI可能因校准不佳和无法表达不确定性而失败,而非缺乏口才,并呼吁增加建立信任的功能。
当正确信念崩溃时:临床压力下LLMs的认知韧性
本文研究了大型语言模型在临床环境中面对对抗性压力时如何维持正确信念,提出了R-FT微调方法以在平衡可纠正性的同时提升认知韧性,并在医学基准测试中展示了显著的鲁棒性提升。
一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架
本文提出了一个多领域红队框架,用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明,高聚合准确率可能掩盖关键失败,而结合临床专家审核的混合评估对于可信的安全性评估是必要的。
我运营着一个基于AI的事实核查平台,却坚决不让大语言模型给出最终判定。以下是我的理由。
作者详细阐述了不让LLM生成最终事实核查判定的决定,转而采用混合架构:LLM负责数据提取,确定性Python层负责评分,并指出了随机不稳定性和可审计性的问题。