如何不微调你的医疗大语言模型：深入探讨Mark Kaplan的healtthruth.ai——"覆盖并重构基础训练"

Reddit r/ArtificialInteligence 2026/05/15 07:23 新闻

medical-llm fine-tuning health-ai cautionary ai-safety

摘要

本文批评了Mark Kaplan通过其平台healtthruth.ai微调医疗大语言模型的方法，指出了在医疗AI中覆盖基础训练的陷阱。

暂无内容

查看原文

相似文章

arXiv cs.CL

本文对医疗大语言模型（包括定制MedGPT和开源模型）进行了大规模评估，发现其中25-30%的模型事实准确性较低，33.6-54.3%的模型违反操作阈值，揭示了系统性的安全风险。

Reddit r/artificial

本文认为，医学AI可能因校准不佳和无法表达不确定性而失败，而非缺乏口才，并呼吁增加建立信任的功能。

arXiv cs.AI

本文研究了大型语言模型在临床环境中面对对抗性压力时如何维持正确信念，提出了R-FT微调方法以在平衡可纠正性的同时提升认知韧性，并在医学基准测试中展示了显著的鲁棒性提升。

arXiv cs.CL

本文提出了一个多领域红队框架，用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明，高聚合准确率可能掩盖关键失败，而结合临床专家审核的混合评估对于可信的安全性评估是必要的。

Reddit r/artificial

作者详细阐述了不让LLM生成最终事实核查判定的决定，转而采用混合架构：LLM负责数据提取，确定性Python层负责评分，并指出了随机不稳定性和可审计性的问题。