标签
Google的研究表明,其医疗AI——AMIE能够长期有效管理健康状况,在推理能力上与临床医生相当,在计划的精确性和与指南的一致性方面更胜一筹,据发表在Nature上的一项研究所示。
本文测量了AI重写放射学报告中的信息退化,发现那些为多模态训练生成更干净文本的任务会导致更大的跨模态对齐损失,这一现象被称为'slop paradox'。
本文提出了一种机器学习合并症指数(MLCI),该方法利用诊断代码和非线性学习来改善多种临床结果的风险调整,优于传统的以死亡率为中心的指数。
本文提出了一种在线自适应的临床决策支持AI系统,该系统整合了治疗效果估计、数字孪生模拟和强化学习,以在安全、临床医生监督的方式下推荐治疗方案,并在合成模拟器和TCGA卵巢癌数据集上进行了验证。
介绍 EHRNote-ChatQA,这是一个基于证据、覆盖多份出院小结的多轮临床问答基准,经专家验证构建。对 22 个大语言模型的基准测试揭示了在证据溯源和多轮错误累积方面的挑战。
介绍了一种基于基础模型的框架,用于CT影像与纵向EHR数据之间的跨模态表示对齐,以实现时间-事件预测,并在肺栓塞和心血管疾病队列上评估了融合策略。
本文提出了一种多智能体‘信任但验证’系统,旨在减少大语言模型中的医疗幻觉。该系统在关于违禁药物的临床问题上测试了三种开放获取模型,实现了53%的幻觉错误率降低。
提出认知相对策略优化(CRPO),一种用于对齐大语言模型在心理健康评估中推理的强化学习框架,在加权F1分数上比现有基线平均提高10.4个百分点。
文章认为,医疗AI项目常常失败并非因为技术不够好,而是由于工作流程碎片化,没有任何一个实体拥有端到端的流程所有权,导致持续脱节,最终又回归到人工操作。
本文将癌症治疗建模为使用主动推理的信念空间规划问题,推导出一个预期自由能目标,该目标在测量预算约束下统一了目标导向控制与信息获取。该框架在AACR Project GENIE的真实临床数据上得到验证,展示了同时进行患者分类与高治疗疗效的能力。
InfoShield 提出了一种基于信息论优化的隐私保护语音表示方法,用于心理健康筛查,在减少敏感属性推断的同时保持诊断准确性。一种新颖的 TimeAwareMINE 估计器解决了时序语音中的时静态错位问题。
研究人员推出了 DoseBench——一个包含 81 个非处方药剂量场景的基准测试,用于评估大语言模型在对乙酰氨基酚和布洛芬使用中面对时间不确定性时的决策能力。结果表明,大语言模型在滚动时间窗口推理方面频繁出现困难,且可能给出看似自信但缺乏医学依据的回答。
MedCUA-Bench是一个新的基准测试,用于评估计算机操作智能体在临床软件任务上的表现,涵盖10个医学领域的18个场景,并包含安全维度。结果显示,当前智能体表现不佳,尤其在真实OpenEMR上,凸显了可靠性方面的显著差距。
ChatHealthAI 是一个多模态推理框架,它将结构化 EHR 表示与冻结的 LLM 对齐,从而在保持预测性能的同时实现基于临床的推理。
研究人员提出了MedSP1000,这是一个包含1638个病例的交互式基准,源自标准化患者场景,用于评估大语言模型作为动态临床代理在多轮问诊中的表现。结果显示,即使是最佳模型(GPT-5.5)也仅完成了60.4%的专家评分项,表明当前的大语言模型在临床实践中尚不够可靠。
本文提出了一种药物感知框架,将用药依从性数据与交易监控相结合,以检测阿尔茨海默病患者的认知风险金融事件,并在药物诱导的脆弱窗口期内显示召回率提升。
本文提出了一种基于自然语言推理(NLI)的语义验证框架,用于评估临床大语言模型对保留语义的提示变化的敏感性,并引入了MVS、ΔC和WCI等度量指标。结果表明,领域专业化并不能持续提高鲁棒性,领域专用模型和通用模型的表现均参差不齐。
本文介绍了EPPC-OASIS,一种本体感知适应方法,用于从安全的患者-提供者消息中提取结构化通信行为。该方法在微调过程中结合了Wasserstein对齐与推理优化步骤,在一个去标识化语料库上相比基线取得了适度改进。
本文提出了VDSS,一种用于呼吸机决策支持的人机协同多智能体框架,它利用上下文Bandit偏好学习来适应特定临床医生的调校风格。回顾性ICU轨迹重放表明,推荐的可接受性提高,交互轮次减少。