clinical-decision-making

#clinical-decision-making

A Personalized Computational Framework for Assessing the Sufficiency of Partially Observed Data in Healthcare AI models

arXiv cs.LG ↗ · 2026-07-13 Cached

This paper introduces Feature Sufficiency Analysis (FSA), a framework to determine whether a subset of clinical features is sufficient for AI model predictions, with case studies in postoperative ventilation and mortality prediction.

0 favorites 0 likes

#clinical-decision-making

LongMedBench: Benchmarking Medical Agents for Long-Horizon Clinical Decision-Making

arXiv cs.AI ↗ · 2026-07-13 Cached

LongMedBench is a new benchmark for evaluating LLM-based medical agents on long-horizon clinical decision-making using real EHR data from MIMIC-IV. It includes 335 patients with multiple visits and proposes evaluation suites for fact-based QA, temporal reasoning, and long-horizon decision-making.

0 favorites 0 likes

#clinical-decision-making

Enhancing Clinician Decision-Making via Uncertainty-Aware Multi-Expert Fusion for Stroke Rehabilitation

arXiv cs.LG ↗ · 2026-06-25 Cached

This paper introduces xAARA, an uncertainty-aware multi-expert fusion engine that augments clinical assessment of stroke rehabilitation by providing calibrated uncertainty and interpretable explanations, achieving high accuracy and reducing predictive uncertainty in movement quality evaluation.

0 favorites 0 likes

#clinical-decision-making

ClinicalMC: A Benchmark for Multi-Course Clinical Decision-Making with Large Language Models

arXiv cs.AI ↗ · 2026-06-03 Cached

ClinicalMC is a benchmark designed to evaluate large language models in multi-course clinical decision-making, featuring datasets in Chinese and English and a multi-agent evaluation framework.

0 favorites 0 likes

#clinical-decision-making

AI Rater Discrimination Depends on Scoring Protocol in Complex Clinical Decision-Making

arXiv cs.CL ↗ · 2026-06-03 Cached

This study examines how AI raters (LLMs) score clinical AI outputs under different protocols in complex type 2 diabetes pharmacotherapy, finding that rubric-anchored scoring provides greater discriminative power than rubric-free scoring.

0 favorites 0 likes

#clinical-decision-making

Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases

Hugging Face Daily Papers ↗ · 2026-06-03

Researchers introduce MedSP1000, a 1,638-case interactive benchmark derived from standardized patient scenarios to evaluate LLMs as dynamic clinical agents across multi-turn encounters. Results show even the best model (GPT-5.5) completes only 60.4% of expert rubric items, suggesting current LLMs are not yet reliable enough for clinical practice.

0 favorites 0 likes

#clinical-decision-making

EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs

arXiv cs.AI ↗ · 2026-06-01 Cached

EHRBench is an automated and reliable benchmark for evaluating LLMs on clinical decision-making tasks using real-world electronic health records, covering nearly 1M QA items across diagnosis, treatment, and prognosis tasks.

0 favorites 0 likes

clinical-decision-making

A Personalized Computational Framework for Assessing the Sufficiency of Partially Observed Data in Healthcare AI models

LongMedBench: Benchmarking Medical Agents for Long-Horizon Clinical Decision-Making

Enhancing Clinician Decision-Making via Uncertainty-Aware Multi-Expert Fusion for Stroke Rehabilitation

ClinicalMC: A Benchmark for Multi-Course Clinical Decision-Making with Large Language Models

AI Rater Discrimination Depends on Scoring Protocol in Complex Clinical Decision-Making

Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases

EHRBench: An Automated and Reliable EHR-based Benchmark for Clinical Decision Making with LLMs

Submit Feedback