标签
本文提出了临床管控框架,一种用于注册、编排、保护和监控AI赋能临床能力的运行时治理架构,并以骨质疏松症为例进行演示。
本文介绍了RaDaR,一个320亿参数的开源推理型大语言模型,基于公开和合成的罕见病病例进行训练。在诊断基准测试中,其表现优于DeepSeek-R1等更大模型,并在随机试验中将医生诊断准确率提升了21.44个百分点。
MedBench v5 是一个面向临床多模态模型的动态、过程导向的基准测试,集成了幻觉检测和压力测试,超越静态问答,评估在信息流压力下的推理和稳定性。
本文介绍了REVEAL++,一种用于视觉-语言对比学习的可微分表型分组方法,应用于视网膜眼底图像和临床风险叙述,以预测阿尔茨海默病风险,其性能优于离散分组基线方法。
来自Boston Children's Hospital、Harvard和OpenAI的研究人员使用OpenAI o3 Deep Research reasoning模型重新分析了376例未解决的罕见疾病病例,经过专家审查和临床确认后,额外确诊了18例(确诊率4.8%)。这项发表在NEJM AI上的研究展示了人工智能辅助工作流程如何帮助专家在科学知识不断发展的情况下重新审视疑难病例。
OpenAI 强调 o3 Deep Research 如何通过整合临床特征、遗传模式、变异证据和科学文献,为专家提供可操作的假设,从而帮助罕见病诊断。
Midjourney 宣布成立名为“Midjourney Medical”的新部门,强调其不依赖风险投资、自筹资金的成功。
OpenAI宣布通过使用GPT-5.5 Instant,在ChatGPT中显著提升了健康相关回答的质量,其准确性与前沿模型相当,并通过医生主导的评估将事实性问题减少了71%。
本文介绍了ClaMPAPP,一种混合架构,使用LLM作为接口从临床叙述中提取特征,然后将这些特征传递给XGBoost分类器进行儿童阑尾炎诊断,展示了相比端到端LLM基线更高的鲁棒性和安全性。
Midjourney CEO David Holz 宣布了 Midjourney Scanner,这是一款使用 Butterfly Network 芯片的全身超声波设备,并计划在旧金山开设一家水疗中心,用于预防性扫描。
本文提出自适应分箱(Adaptive Binning),一种针对表格自监督学习的、与学习过程耦合的特征级粗到细课程,能够自适应地离散化特征,在医学数据集上提升表示质量,并建立了统一的基准测试。
Google的研究表明,其医疗AI——AMIE能够长期有效管理健康状况,在推理能力上与临床医生相当,在计划的精确性和与指南的一致性方面更胜一筹,据发表在Nature上的一项研究所示。
RubricsTree 提出了一种可扩展且与专家对齐的个人健康智能体评估框架,使用超过100个原子布尔规则,在Gemini、GPT和Qwen模型系列的HealthBench上实现了高达66%的相对提升。
介绍了AIPatient Arena,一个基于电子健康记录的评估框架,用于评估大语言模型在临床能力的多个维度。研究揭示了在问诊和伦理方面的优势,但在处理模糊性和诊断准确性方面的弱点。
本文系统评估了用于多模态癌症分析的基础模型表征,在真实世界队列上对单模态与多模态融合策略进行基准测试,并通过共形预测评估可信度。
ACIE是一款用于临床信息提取的智能体RAG系统,在核医学医师对7,326个实例的判断中达到96.5%的接受率,解决了异质性患者背景和缺失元数据的挑战。
PRAG框架将传统RAG与波你尼规则引擎相结合,用于更安全的医疗AI,在MedQA上实现了不安全答案减少71%。它提供可审计的规则追踪,并且是开源的。
本文提出了VIBEMed,一种具有自进化机制和安全沙箱的多智能体框架,用于稳健的临床决策支持,集成了专门用于诊断、治疗计划以及随时间演化临床知识的智能体。
本综述回顾了知识图谱在医学中五个关键领域——临床决策支持、疾病预测、健康推荐系统、精准医学和医学问答——中的应用,讨论了挑战与未来方向。
MedLatentDx提出了一种用于跨医院罕见病诊断的潜在多智能体通信框架,利用潜在KV块共享诊断证据而不暴露临床文本,并引入了CrossRare-Bench基准测试。