标签
本文质疑了诸如 Mamba 等模型中的预测瓶颈能够恢复因果结构的说法,并通过一个新的基准测试证明,其性能提升主要归因于混杂因素和鲁棒性伪影,而非真正的因果发现。
一位本科生研究员对Anthropic最近的机械可解释性研究表达了幻灭感,具体批评其新的自然语言自编码器方法是一种黑箱技术,且缺乏与稀疏自编码器基线之间的严格指标比较。