标签
本文对医疗大语言模型(包括定制MedGPT和开源模型)进行了大规模评估,发现其中25-30%的模型事实准确性较低,33.6-54.3%的模型违反操作阈值,揭示了系统性的安全风险。
PolicyBank提出了一种记忆机制,使LLM智能体能够通过迭代交互和纠正反馈自主改进对组织策略的理解,弥补导致系统性行为偏离真实需求的规范差距。该工作引入了一个系统化测试平台,并展示PolicyBank能够解决高达82%的策略差距对齐失败,显著超越现有记忆机制。