@DivyanshT91162: 微软研究刚刚发布了一篇论文,彻底颠覆了对可解释性的理解。(收藏此篇)多年来,……

X AI KOLs Timeline 论文

摘要

微软研究院推出了Agentic-iModels,这是一个框架,其中编码代理进化出针对LLM可解释性而非人类可读性优化的scikit-learn回归器,在65个数据集上超越了传统的可解释机器学习方法。

微软研究刚刚发布了一篇论文,彻底颠覆了对可解释性的理解。(收藏此篇)多年来,可解释ML一直是为人类阅读图表、树和系数而设计的。但现在,AI代理正在分析模型。因此,微软提出了一个不同的问题:“如果模型针对另一个LLM的可解释性进行优化会怎样?”由此诞生了Agentic-iModels。这是一个自主研究循环,其中像Claude Code和Codex这样的编码代理不断进化出scikit-learn回归器,这些回归器具有以下特点:• 高精度 • 足够简单,让另一个LLM可以直接从文本进行推理。最惊人的部分是:可解释性测试是通过给一个小型LLM仅提供模型的__str__输出来进行的,然后检查它是否仍然能够预测行为、解释特征效应并回答反事实问题。没有隐藏权重。没有可视化。只有原始的可读逻辑。在65个表格数据集上,这些模型在准确性和可读性方面优于传统的“可解释ML”方法,如决策树、GAM和稀疏线性模型。当应用于BLADE基准上的代理数据科学系统时,性能提高了8%到73%。这感觉不太像“可解释AI”,而更像是AI原生科学推理的开始。
查看原文

相似文章

应用于大语言模型的可解释性研究:对比分析

arXiv cs.CL

一项对比研究,评估了三种可解释性技术(Integrated Gradients、Attention Rollout、SHAP)在微调 DistilBERT 模型上的表现,用于情感分类任务,重点突出了基于梯度、基于注意力和模型无关方法在大语言模型可解释性中的权衡。

激进AI可解释性

arXiv cs.AI

本文借鉴激进解释哲学和机械可解释性工具,构建了一个将AI系统解释为智能体的框架,探讨如何通过理解系统的信念、欲望和意义来信任AI系统。