标签
本文介绍了 MedAction 框架,该框架通过模拟迭代式的检查开具与假设更新,训练大语言模型(LLM)进行主动的多轮临床诊断。文章提出了一个新的数据集 MedAction-32K,并展示了开源模型在医学基准测试上的最先进水平(SOTA)性能。
本文介绍了 MedExAgent,这是一个将临床诊断形式化为部分可观测马尔可夫决策过程(POMDP)以处理嘈杂和不完整信息的框架。该框架提出了一种结合监督微调与强化学习的两阶段训练流程,以提高医疗大语言模型的诊断准确性和成本效益。