influence-functions

#influence-functions

CLIF：用于透明瓶颈模型的概念级影响函数

arXiv cs.CL ↗ · 2026-05-20 缓存

本文提出CLIF，一种利用影响函数在概念瓶颈模型中对NLP模型进行样本级和概念级解释的方法，实现了透明的调试和概念级分析。

0 人收藏 0 人点赞

#influence-functions

arXiv cs.LG ↗ · 2026-05-14 缓存

本文介绍了一个框架，通过稀疏自编码器学习正交潜在空间，实现对大型语言模型中词元级影响的归因，从而精确识别共同影响预测的训练数据词元，适用于医疗等高风险领域。

0 人收藏 0 人点赞