标签
本文提出CLIF,一种利用影响函数在概念瓶颈模型中对NLP模型进行样本级和概念级解释的方法,实现了透明的调试和概念级分析。
本文介绍了一个框架,通过稀疏自编码器学习正交潜在空间,实现对大型语言模型中词元级影响的归因,从而精确识别共同影响预测的训练数据词元,适用于医疗等高风险领域。