标签
本文提出了一个验证框架,用于评估大型语言模型(LLM)在灾害期间从社交媒体帖子中提取因果关系的有效性。通过将LLM生成的结果与基于专家知识的参考图谱进行比较,评估其在识别因果关系方面的可靠性及潜在风险。