标签
RealICU是一个事后标注的基准测试,用于评估ICU场景中的大型语言模型(LLM),涵盖四个由医生驱动的任务。实验表明,现有LLM在回忆-安全权衡和锚定偏差方面存在困难,而一种新的结构化记忆代理改善了推理能力,但未能完全消除安全故障。