semantic-stability

#semantic-stability

Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs

arXiv cs.CL ↗ · 2026-06-01 Cached

This paper proposes a semantic verification framework using Natural Language Inference (NLI) to evaluate the sensitivity of clinical LLMs to meaning-preserving prompt variations, introducing metrics such as MVS, ΔC, and WCI. Results show that domain specialization does not consistently improve robustness, with both domain-specific and general-purpose models showing mixed performance.

0 favorites 0 likes

semantic-stability

Same Patient, Different Words, Different Diagnosis? Evaluating Semantic Stability in Clinical LLMs

Submit Feedback