模型无关的灵敏度近似器 [P]

Reddit r/MachineLearning 工具

摘要

一位16岁的开发者创建了sage-explainer,这是一个Python包,用于近似黑盒模型(如随机森林和XGBoost)对特征的预测灵敏度,提供比中心有限差分更稳定的结果。

(首先声明,我16岁,这是我开发的第一个包。欢迎任何反馈!)我注意到大多数行业标准的XAI工具(如SHAP/LIME)专注于特征归因(模型为何做出这个预测),但仅此而已。我想更进一步,因此构建了一个工具来近似 ∂[预测]/∂[特征],即模型预测对给定实例的每个特征的敏感程度,从而在需要知道如何改变预测比理解预测本身更重要的领域实现有效的风险管理。该工具旨在用于连续且不可微的黑盒模型,特别是随机森林或XGBoost等模型。它采用基于扰动的方法(深受LIME启发,我非常喜欢这个工具),在给定实例的某个窗口内(窗口大小由特征分布控制)扰动每个特征,然后计算每次扰动的割线斜率( (f(扰动) - f(原始)) / (扰动-原始) ),并使用线性回归(x=扰动,y=割线斜率)来估计原始实例处的斜率。割线斜率根据扰动与原始值的距离进行高斯加权。坦白说,结果有些平淡。我将我的工具与简单使用中心有限差分( (f(x+h)-f(x-h)) / 2h,其中h很小)进行了比较,发现在PyTorch神经网络上(使用autograd作为真实值),其性能提升有限。然而,在无法解析求解梯度的随机森林模型上,我的工具的灵敏度比CFD稳定得多,CFD的灵敏度严重依赖于epsilon(h值)的大小。如果你感兴趣,可以通过pip install sage-explainer尝试。更多信息请访问我的GitHub仓库 yashkher-123/sage。
查看原文

相似文章

RRISE:通过代理估计器进行鲁棒半径推断

arXiv cs.LG

RRISE引入了一种学习的代理估计器,将随机平滑认证鲁棒性的蒙特卡洛采样成本降低到单次前向传播,在将每次查询多达10^4次评估替换为一次前向传播的同时,精度保持在0.84个百分点以内。

基于预测驱动推理的统计可靠LLM排名评估

arXiv cs.LG

本文介绍了PRECISE,它是预测驱动推理(Prediction-Powered Inference)的一种扩展,将少量人工标注与大量LLM判断结合,以生成无偏且方差减小的排名评估指标(如Precision@K)估计。该方法在ESCI基准测试和实际生产环境的A/B测试中进行了验证,仅使用100个人工标注就正确识别出了最佳系统变体,并通过+407 bps的销售改进得到了确认。