标签
本文介绍了归因合同(Attribution Contract),这是生成式语言模型中特征归因声明的一种规范,解决了特征定义不清以及归因方法评估方式模糊的问题。论文以自回归模型和扩散模型为例,展示了归因何时具有信息量,何时可能产生误导。
本文证明,在共线性条件下,没有任何特征排名能同时满足忠实性、稳定性和完备性,刻画了完整的归因设计空间,并提供了一个形式化验证的可解释AI不可能性定理。
一位16岁的开发者创建了sage-explainer,这是一个Python包,用于近似黑盒模型(如随机森林和XGBoost)对特征的预测灵敏度,提供比中心有限差分更稳定的结果。
提出一种基于权重扰动的特征归因方法(XWP和XWPc),用于全连接神经网络,在标准基线指标上取得了有竞争力的性能。
研究人员推出了 PIE,这是一种面向跨层转码器(CLT)的原生框架,通过基于特征归因的剪枝技术实现高效的电路发现。该方法在特征选择上实现了约 40 倍的压缩,同时成功保持了 IOI 和 Doc-String 任务的行为保真度。