clinical-decision-making

#clinical-decision-making

面向医疗AI模型中部分观测数据充足性评估的个性化计算框架

arXiv cs.LG ↗ · 2026-07-13 缓存

本文介绍了特征充足性分析（FSA），这是一个框架，用于确定临床特征子集是否足以用于AI模型预测，并通过术后通气和死亡率预测的案例研究进行说明。

0 人收藏 0 人点赞

#clinical-decision-making

arXiv cs.AI ↗ · 2026-07-13 缓存

LongMedBench 是一个新的基准测试，用于评估基于LLM的医疗智能体在长时程临床决策中的表现。它使用来自 MIMIC-IV 的真实电子健康记录数据，包含335名具有多次就诊记录的患者，并提出了针对事实问答、时序推理和长时程决策的评估套件。

0 人收藏 0 人点赞

#clinical-decision-making

arXiv cs.LG ↗ · 2026-06-25 缓存

本文介绍了xAARA，一种不确定性感知的多专家融合引擎，通过提供校准的不确定性和可解释的说明来增强卒中康复的临床评估，在动作质量评估中实现了高精度并降低了预测不确定性。

0 人收藏 0 人点赞

#clinical-decision-making

arXiv cs.AI ↗ · 2026-06-03 缓存

ClinicalMC是一个基准，旨在评估大语言模型在多疗程临床决策中的表现，包含中文和英文数据集以及一个多智能体评估框架。

0 人收藏 0 人点赞

#clinical-decision-making

arXiv cs.CL ↗ · 2026-06-03 缓存

本研究考察了AI评分员（LLMs）在复杂2型糖尿病药物治疗中根据不同协议对临床AI输出进行评分的方式，发现基于评分标准的评分比无标准评分具有更强的区分能力。

0 人收藏 0 人点赞

#clinical-decision-making

Hugging Face Daily Papers ↗ · 2026-06-03

研究人员提出了MedSP1000，这是一个包含1638个病例的交互式基准，源自标准化患者场景，用于评估大语言模型作为动态临床代理在多轮问诊中的表现。结果显示，即使是最佳模型（GPT-5.5）也仅完成了60.4%的专家评分项，表明当前的大语言模型在临床实践中尚不够可靠。

0 人收藏 0 人点赞

#clinical-decision-making

arXiv cs.AI ↗ · 2026-06-01 缓存

EHRBench是一个自动化且可靠的基准测试，利用真实电子健康记录评估大语言模型在临床决策任务上的表现，涵盖诊断、治疗和预后任务，包含近100万个问答条目。

0 人收藏 0 人点赞