How NOT to fine-tune your medical LLM; a look into Mark Kaplan's healtthruth.ai - "override and reframe foundational training"

Reddit r/ArtificialInteligence 05/15/26, 07:23 AM News

Summary

This article critiques Mark Kaplan's approach to fine-tuning medical LLMs via his platform healtthruth.ai, highlighting pitfalls in overriding foundational training for healthcare AI.

No content available

Original Article

Similar Articles

Evaluating medical AI under missing information: same-provider judges and human raters change apparent safety

arXiv cs.AI

This paper extends missing-information stress-testing to open-ended medical conversation, finding that LLM judge choice materially changes apparent safety and that LLM judges are more permissive than clinicians.

Measuring Epistemic Resilience of LLMs Under Misleading Medical Context

Hugging Face Daily Papers

Introduces MedMisBench to measure LLMs' ability to maintain correct medical reasoning under misleading context. Shows that accuracy drops sharply from 71.1% to 38.0% under adversarial conditions, with potential harm flagged by clinical panel.

Do No Harm? Hallucination and Actor-Level Abuse in Web-Deployed Medical Large Language Models

arXiv cs.CL

This paper presents a large-scale assessment of medical LLMs, including custom MedGPTs and open-source models, finding 25-30% exhibit low factual accuracy and 33.6-54.3% violate operational thresholds, highlighting systemic safety risks.

AI in medicine will fail on calibration long before it fails on eloquence.

Reddit r/artificial

The article argues that AI in medicine may fail due to poor calibration and inability to express uncertainty, rather than lack of eloquence, and calls for features that build trust.

Aligning Clinical Needs and AI Capabilities: A Survey on LLMs for Medical Reasoning