反事实行为的几何视角:决策边界接近性与局部数据支撑的交互作用
摘要
本文通过几何视角审视机器学习模型中的反事实行为,表明预测性能相似的模型,由于决策边界接近性与局部数据支撑之间的交互作用,其反事实结果可能大相径庭。研究结果将反事实行为视为与预测性能不同的独立维度,对模型选择及反事实解释方法的可靠性具有启示意义。
arXiv:2606.04209v1 Announce Type: new
摘要:反事实解释旨在寻找对输入进行微小且语义有意义的改变,从而改变模型的预测结果,被广泛用于解释和审计机器学习系统。在当代视觉、语言和多模态系统中,预训练编码器将输入映射到表示空间,下游分类器头在这些空间中施加决策边界。因此,附近反事实的可行性和距离取决于边界相对于数据的放置位置。然而,预测性能相似的模型在是否能够实现此类更改以及表示需要移动多远方面可能存在显著差异。本研究通过使用标准化局部搜索探测,跨多个预训练编码器和线性分类器头来考察这种变异。结果表明,尽管预测性能相似,模型在反事实行为上存在显著差异。在固定表示的情况下,仅改变分类器头就会改变反事实结果,同时预测性能基本保持不变。这种变异可以通过决策边界接近性与局部数据支撑的交互作用来解释,两者共同决定了预测变化是否可行且位于数据支持的区域内,同时也能改进固定模型内的反事实搜索。综合来看,这些发现将反事实行为识别为超越预测性能的独立维度,并表明它可以在不改变准确率的情况下被改变,这对模型选择、鲁棒性以及反事实方法的可靠性具有重要意义。
查看缓存全文
缓存时间: 2026/06/05 02:23
# 反事实行为的几何视角:边界接近度与局部支持的交互作用
来源:https://arxiv.org/html/2606.04209
Ioanna Gemou Matteo Gamba Randall Balestriero Ritambhara Singh 布朗大学 \{ioanna\_gemou, matteo\_gamba, randall\_balestriero, ritambhara\}@brown\.edu
###### 摘要
反事实解释旨在寻找对输入进行微小且语义有意义的更改,以改变模型的预测结果,广泛用于解释和审计机器学习系统。在现代视觉、语言和多模态系统中,预训练编码器将输入映射到表示空间,下游分类器头在这些空间内施加决策边界。因此,邻近反事实的可行性和距离取决于边界相对于数据的位置。然而,具有相似预测性能的模型在是否可以实现这些更改以及表示需要移动多远方面可能存在显著差异。本研究通过跨多个预训练编码器和线性分类器头的标准化局部搜索探针来考察这种差异。结果表明,尽管预测性能相似,模型在反事实行为上存在显著差异。在固定表示下,仅改变分类器头就会改变反事实结果,同时预测性能基本保持不变。这种差异可以通过决策边界接近度与局部数据支持之间的相互作用来解释,两者共同决定预测更改是否可行且位于数据支持的区域内,并且还可以改进固定模型内的反事实搜索。总之,这些发现将反事实行为确定为超越预测性能的一个独立维度,并表明可以在不改变准确性的情况下改变它,这对模型选择、鲁棒性以及反事实方法的可靠性具有启示意义。111代码可在https://github.com/igemou/counterfactual-geometry 获取。
## 1 引言
反事实解释提出这样一个问题:*能否通过对输入进行微小且语义有意义的更改来改变模型的预测?* Wachter等人(2018 (https://arxiv.org/html/2606.04209#bib.bib1)); Verma等人(2024 (https://arxiv.org/html/2606.04209#bib.bib82))它们提供了一种直观且可操作的解释形式,有助于在医疗和金融等领域解释和审计机器学习系统,在这些领域,理解附近是否存在可改变决策的替代方案至关重要Ustun等人(2019 (https://arxiv.org/html/2606.04209#bib.bib62)); Karimi等人(2021 (https://arxiv.org/html/2606.04209#bib.bib29))。
大多数关于反事实解释的先前工作集中于表格数据和特征空间扰动Wachter等人(2018 (https://arxiv.org/html/2606.04209#bib.bib1)); Mothilal等人(2020 (https://arxiv.org/html/2606.04209#bib.bib2))。这些方法通常将反事实生成表述为一个局部优化问题:给定一个输入,在受任务特定可行性约束的条件下,搜索一个微小但能改变预测的扰动。虽然这类约束至关重要,但它们并未完全刻画反事实行为:在施加的局部性预算内,改变预测的扰动可能不存在,并且跨越边界仍可能导致进入数据支持较弱的区域。对抗鲁棒性方面的相关观察表明,预测通常可以通过与实际情况不符的微小扰动来翻转Fawzi等人(2017 (https://arxiv.org/html/2606.04209#bib.bib50)); Tanay 和 Griffin(2016 (https://arxiv.org/html/2606.04209#bib.bib56))。因此,附近的预测更改是否可行且有意义,不仅取决于是否到达决策边界,还取决于该边界相对于数据的定位方式。
在现代机器学习系统中,这个问题变得更加突出,因为预测通常通过习得表示进行:预训练编码器将输入映射到嵌入空间,任务特定的分类器将该空间划分为决策区域Devlin等人(2019 (https://arxiv.org/html/2606.04209#bib.bib70)); Radford等人(2021 (https://arxiv.org/html/2606.04209#bib.bib73)); Bengio等人(2013 (https://arxiv.org/html/2606.04209#bib.bib86))。因此,在该空间中研究反事实行为是很自然的:编码器决定了样本的特征几何结构,而分类器头则决定了决策边界如何切割该几何结构。
同时,嵌入空间中的预测更改在输入空间中并不自动成为有意义的替代方案;它们必须保持靠近数据支持的区域。由于不同的模型即使在预测性能相似时,也可能在表示空间中以不同方式组织数据D'Amour等人(2020 (https://arxiv.org/html/2606.04209#bib.bib57)); Kornblith等人(2019 (https://arxiv.org/html/2606.04209#bib.bib75)),这就提出了一个核心问题:习得表示何时允许局部支持的预测更改?
基于这些考虑,本研究将反事实行为视为局部数据支持与分类器边界放置之间交互作用的函数。图̃1 (https://arxiv.org/html/2606.04209#S1.F1)a显示,预测性能相似的模型在局部数据支持方面可能以不同方式放置决策边界。为了量化这些差异,在本工作中,一个标准化的局部搜索探针在匹配的约束下评估模型,并将行为与两个几何量联系起来:决策边界接近度(到最近边界的距离)和局部数据支持(到目标类别样本的距离)。在涵盖多个最先进的视觉、语言和多模态模型的全面评估中,这种交互作用一致地控制着反事实结果。此外,在固定表示下,仅改变分类器头就会移动决策边界及其与局部数据支持的关系,从而改变预测更改是否可行且受支持,而不会显著改变预测性能。图̃1 (https://arxiv.org/html/2606.04209#S1.F1)b说明了这些几何量如何塑造局部行为:更接近边界且处于强局部数据支持区域的点更易于进行预测更改。最后,图̃1 (https://arxiv.org/html/2606.04209#S1.F1)c显示,相同的几何量可以引导局部搜索获得改进的反事实结果。
#### 贡献。
本研究做出三个贡献。首先,引入了一个用于评估反事实行为的几何框架和标准化搜索探针。其次,表明在固定嵌入下,尽管预测性能相似,不同分类器头的反事实行为可能差异很大,从而隔离了决策边界放置的影响。第三,表明仅有决策边界接近度是不够的:局部数据支持及其与边界接近度的交互作用可以预测附近的预测更改是否可行且受局部支持。总之,这些发现确立了反事实行为是超越预测性能和仅基于边界的鲁棒性的一个独立轴,并展示了它如何为模型选择、鲁棒性分析以及更可靠的反事实解释方法的设计提供信息。
参考图例图1:反事实行为由边界接近度和局部数据支持共同塑造。表示空间示意图。(a)准确率匹配的模型在决策边界相对于数据的位置上可能不同。(b)对于更接近边界和更高目标类别支持区域的点,邻近预测更改更容易实现。(c)在固定约束下,相同的几何信号可以引导局部搜索获得改进的反事实结果。
## 2 相关工作
本研究与四条研究路线最为密切相关:表示几何、决策边界分析、反事实解释和补救措施、以及模型多重性。虽然这些领域研究了模型行为的相关方面,但表示几何与反事实行为之间的联系仍未得到充分探索。
#### 习得表示的几何结构。
习得表示在类别分离程度以及数据在嵌入空间中的组织方式上通常存在差异。先前的工作通过数据流形框架研究了这种关系,该框架使用流形半径、内在维度和类间相关性等量来描述可分性Cohen等人(2020 (https://arxiv.org/html/2606.04209#bib.bib51)); Chung等人(2018 (https://arxiv.org/html/2606.04209#bib.bib60))。后续工作研究了习得表示中的几何结构,包括各向异性、有效秩和神经坍缩Ethayarajh(2019 (https://arxiv.org/html/2606.04209#bib.bib48)); Roy 和 Vetterli(2007 (https://arxiv.org/html/2606.04209#bib.bib83)); Papyan等人(2020 (https://arxiv.org/html/2606.04209#bib.bib52)); Kornblith等人(2019 (https://arxiv.org/html/2606.04209#bib.bib75))。这些方法主要关注类别在表示空间中是否可分离或组织良好。相比之下,我们的研究探讨表示几何如何与在固定局部性约束下是否可达的、受局部支持的附近预测更改相关联。
#### 决策边界与对抗鲁棒性。
先前的工作通过对抗鲁棒性分析了决策边界几何,将边界跨越与间隔、曲率和局部线性联系起来Goodfellow等人(2015 (https://arxiv.org/html/2606.04209#bib.bib61)); Moosavi-Dezfooli等人(2016 (https://arxiv.org/html/2606.04209#bib.bib38)); Fawzi等人(2017 (https://arxiv.org/html/2606.04209#bib.bib50)); Tanay 和 Griffin(2016 (https://arxiv.org/html/2606.04209#bib.bib56)); Elsayed等人(2018 (https://arxiv.org/html/2606.04209#bib.bib77)); Jiang等人(2019 (https://arxiv.org/html/2606.04209#bib.bib78))。这些分析侧重于更改预测所需的最小扰动,通常独立于受扰点是否仍受局部数据分布支持。相反,我们的研究考察的反事实更改必须既跨越决策边界,又保持在局部支持的目标区域内,因此联合考虑了边界接近度与局部数据支持。
#### 反事实解释与补救措施。
反事实解释方法旨在构造能够改变模型预测的微小更改Wachter等人(2018 (https://arxiv.org/html/2606.04209#bib.bib1)); Poyiadzi等人(2020 (https://arxiv.org/html/2606.04209#bib.bib3)); Mothilal等人(2020 (https://arxiv.org/html/2606.04209#bib.bib2))。潜在空间和生成式方法通过将扰动约束在习得表示上来提高合理性Poyiadzi等人(2020 (https://arxiv.org/html/2606.04209#bib.bib3)); Verma等人(2024 (https://arxiv.org/html/2606.04209#bib.bib82)); Guidotti(2022 (https://arxiv.org/html/2606.04209#bib.bib10)),而算法补救研究则关注是否存在可以改变决策的可操作更改Ustun等人(2019 (https://arxiv.org/html/2606.04209#bib.bib62)); Karimi等人(2021 (https://arxiv.org/html/2606.04209#bib.bib29)); Joshi等人(2019 (https://arxiv.org/html/2606.04209#bib.bib64))。最近的工作还分析了反事实解释并将其与对抗扰动联系起来Pawelczyk等人(2022 (https://arxiv.org/html/2606.04209#bib.bib85))。这条工作线主要侧重于为单个实例生成或分析反事实。我们的工作则诊断性地使用标准化的局部搜索探针来研究反事实行为作为模型和表示的属性。
#### 模型多重性与欠指定。
具有相似预测性能的模型可能表现出实质上不同的行为,包括解释、鲁棒性和补救措施方面的差异Marx等人(2020 (https://arxiv.org/html/2606.04209#bib.bib58)); Fisher等人(2019 (https://arxiv.org/html/2606.04209#bib.bib59)); D'Amour等人(2020 (https://arxiv.org/html/2606.04209#bib.bib57))。这种可变性部分可能源于分类器边界放置的差异:仅重新训练最后一层就可以在不修改表示的情况下大幅改变行为Kirichenko等人(2023 (https://arxiv.org/html/2606.04209#bib.bib84))。我们的工作通过将决策边界接近度和局部数据支持的交互作用确定为控制反事实行为变化的具体几何因素,补充了这一视角。
## 3 反事实的几何框架
反事实解释寻求能够改变模型预测的微小、语义有意义的更改。令X\\mathcal\{X\}表示输入空间,Z⊆Rd\\mathcal\{Z\}\\subseteq\\mathbb\{R\}^\{d\}表示表示空间,Y\\mathcal\{Y\}表示标签空间。给定输入x∈Xx\\in\\mathcal\{X\},预训练编码器e:X→Ze:\\mathcal\{X\}\\to\\mathcal\{Z\}将xx映射到表示z=e\(x\)z=e\(x\),分类器f:Z→Yf:\\mathcal\{Z\}\\to\\mathcal\{Y\}预测标签y=f\(z\)y=f\(z\)。反事实生成在嵌入空间中表述为
z′=argminz′∈Z‖z′−z‖2s\.t\.f\(z′\)≠f\(z\),z^\{\\prime\}=\\arg\\min\_\{z^\{\\prime\}\\in\\mathcal\{Z\}\}\\\|z^\{\\prime\}\\-z\\\|\_\{2\}\\quad\\text\{s\.t\.\}\\quad f\(z^\{\\prime\}\)\\neq f\(z\),\(1\)遵循标准公式Wachter等人(2018 (https://arxiv.org/html/2606.04209#bib.bib1)); Poyiadzi等人(2020 (https://arxiv.org/html/2606.04209#bib.bib3))。在固定的优化预算和局部性约束下,反事实成功与否取决于在zz的局部邻域内是否可以在保持受数据支持的区域的同时到达一个改变预测的区域。这一视角提示了两个互补的几何量:决策边界接近度和局部目标类别支持。
#### 决策边界接近度。
到最近决策边界的距离影响预测更改的难易程度。靠近竞争类别边界的点应比当前决策区域深处的点需要更小的移动。
令h\(z\)h\(z\)表示分类器logits,yy和y′y^\{\\prime\}表示前两个预测类别。定义logit差值
g\(z\)=h\(z\)y−h\(z\)y′,g\(z\)=h\(z\)\_\{y\}\\-h\(z\)\_\{y^\{\\prime\}\},\(2\)
在分类器的线性近似下,到决策边界距离的一阶近似由下式给出
dbd\(z\)≈\|g\(z\)\|\|∇zg\(z\)\|2\+ε,d\_\{\\mathrm\{bd\}\}\(z\)\\approx\\frac\{\|g\(z\)\|\}\{\|\\nabla\_\{z\}g\(z\)\|\_\{2\}\+\\varepsilon\},\(3\)遵循标准的局部线性化分析Moosavi-Dezfooli等人(2016 (https://arxiv.org/html/2606.04209#bib.bib38)); Fawzi等人(2017 (https://arxiv.org/html/2606.04209#bib.bib50)); Tanay 和 Griffin(2016 (https://arxiv.org/html/2606.04209#bib.bib56)); Jiang等人(2019 (https://arxiv.org/html/2606.04209#bib.bib78)); Elsayed等人(2018 (https://arxiv.org/html/2606.04209#bib.bib77))。这提供了在分类器线性近似下到达决策边界所需扰动的局部代理。较大的值表明模型需要更大的局部移动才能实现预测更改。
#### 局部目标类别支持。
仅有决策边界接近度并不能决定反事实质量:跨越附近的边界可能导致进入弱支持区域。受流形感知反事实Poyiadzi等人(2020 (https://arxiv.org/html/2606.04209#bib.bib3))和算法补救Joshi等人(2019 (https://arxiv.org/html/2606.04209#bib.bib64)); Ustun等人(2019 (https://arxiv.org/html/2606.04209#bib.bib62))的启发,局部目相似文章
不归点:语言模型推理中欺骗承诺的反事实定位
引入反事实定位方法,用于识别语言模型在推理过程中何时对欺骗做出承诺。该方法使用五个环境,包含四个推理模型的146万句子语料库。研究表明,基于注意力的转换特征在不同环境中具有泛化能力,可用于检测欺骗承诺。
马尔可夫边界在表格预测中的好、坏与丑
本文评估了马尔可夫边界在表格预测中的实际效果,发现尽管理论上最优,但由于计算限制和优化目标不匹配,当前的因果发现方法无法持续提升预测性能。
预测瓶颈无法发现因果结构(但它们实际上能做什么)
本文质疑了诸如 Mamba 等模型中的预测瓶颈能够恢复因果结构的说法,并通过一个新的基准测试证明,其性能提升主要归因于混杂因素和鲁棒性伪影,而非真正的因果发现。
Vernier: 探究因果推理中词汇缺口背后的表征错位
本文探究了为何指令调优的语言模型在将变量名替换为占位符后,对因果推理问题给出不同答案,发现问题源于表征错位而非信息丢失。作者引入了Vernier方法,通过配对视图权重更新和机制检查,揭示出答案相关内容在占位符视图中仍然存在但错位。
分层递归推理中的交互局部性
提出了交互局部性(interaction locality)这一任务几何感知框架,用于衡量空间推理模型中的信息流是停留在局部单元内还是跨越到全局结构,并将其应用于HRM、TRM和MTU3D模型,在网格基准测试和具身3D定位任务上进行评估。