influence-functions

标签

Cards List
#influence-functions

CLIF:用于透明瓶颈模型的概念级影响函数

arXiv cs.CL · 2026-05-20 缓存

本文提出CLIF,一种利用影响函数在概念瓶颈模型中对NLP模型进行样本级和概念级解释的方法,实现了透明的调试和概念级分析。

0 人收藏 0 人点赞
#influence-functions

修正影响:利用正交潜在空间解构LLM输出

arXiv cs.LG · 2026-05-14 缓存

本文介绍了一个框架,通过稀疏自编码器学习正交潜在空间,实现对大型语言模型中词元级影响的归因,从而精确识别共同影响预测的训练数据词元,适用于医疗等高风险领域。

0 人收藏 0 人点赞
← 返回首页

提交意见反馈