反馈对齐在卷积网络中的生物合理性与表征一致性
摘要
本文评估了反馈对齐算法在卷积网络中的生物合理性与表征一致性,并在 CIFAR-10 数据集上将其与标准反向传播进行了对比。作者发现,改进的反馈对齐方法收敛出的内部表征与反向传播产生的表征相似,这表明其功能上的成功源于对表征几何结构的模仿。
arXiv:2605.08564v1 公告类型:新增
摘要:反馈对齐(FA)算法为训练神经网络提供了一种比反向传播(BP)更具生物合理性的替代方案,但其在扩展至卷积架构方面存在显著局限。已有研究提出了多种修改方案以解决这一限制,但这些方案对生物合理性的代价尚存争议。本文评估了五种学习算法,包括改进的 FA 和标准 BP,将它们应用于相同的卷积架构并在 CIFAR-10 数据集上进行测试。我们提供了一项三方面的对比分析,重点关注生物合理性、可解释性和计算复杂度。结果表明,改进的 FA 算法收敛出的内部表征在结构上与反向传播产生的表征相似。尤其值得注意的是,改进 FA 算法的功能成功可能根植于其模仿反向传播表征几何结构的能力,尽管其依赖的权重更新机制在根本上有所不同,但最终仍收敛于相似的表征。
查看缓存全文
缓存时间: 2026/05/12 07:17
# 卷积网络中反馈对齐的生物合理性及表征对齐性
来源:https://arxiv.org/html/2605.08564
Larry Kieu\*(kieu@cs\.toronto\.edu) 多伦多大学
###### 摘要
反馈对齐(Feedback Alignment, FA)算法为训练神经网络提供了一种比反向传播(Backpropagation, BP)更具生物合理性的替代方案,但显著无法扩展到卷积架构。针对这一局限性已提出若干修改方案,但这些方案在生物合理性方面的代价存疑。在本文中,我们评估了五种学习算法(包括修改后的 FA 和标准 BP),并将其应用于相同的卷积架构以在 CIFAR-10 数据集上进行训练。我们提供了一项三分法比较分析,重点关注生物合理性、可解释性和计算复杂度。我们的结果表明,修改后的 FA 算法收敛于与反向传播产生的内部表征在结构上相似的表征。特别是,修改后 FA 算法的功能性成功似乎根植于其模仿反向传播表征几何结构的能力,尽管依赖于根本不同的权重更新机制,仍收敛于相似的表征。复现我们实验的所有代码均可在 [此处](https://github.com/dqieu/Interp_FA) 找到。
\*\*脚注:同等贡献。## 引言
反向传播(BP)仍是训练深度神经网络的主要算法,在视觉、语言和强化学习任务中实现了最先进的性能。BP 的核心是通过使用前向权重矩阵的转置,将损失信号向后通过网络传播来计算误差梯度。虽然这种要求在数学上很优雅,但这种需求(称为权重传输问题 weight transport problem)?(?) 因其在生物上不合理而受到计算神经科学家的质疑。具体而言,这一要求意味着每个反馈突触必须携带与其对应的前馈突触精确镜像的信息。目前没有已知的生物机制支持这种对称的突触通信,这使得 BP 难以与我们对大脑学习的认知相协调。
反馈对齐(FA)由 ?(?) 引入,作为一种受生物学启发的替代方案。FA 不使用转置的前向权重传播误差,而是使用固定的随机反馈矩阵 **B** 向后传递误差信号。值得注意的是,以这种方式训练的网络仍然能够学习。前向权重逐渐与随机反馈权重对齐,使得 FA 梯度与真正的 BP 梯度相关,这种现象称为**梯度对齐**(gradient alignment)。这一结果引起了机器学习和神经科学界的广泛关注,因为它表明在深度网络中进行信用分配可能不需要精确的权重对称性。111 这一贡献的重要性继续得到认可,包括最近的 2025 年 NeurIPS Hinton-Sejnowski 奖([链接](https://blog.neurips.cc/2025/11/26/announcing-the-2025-sejnowski-hinton-prize/)),以表彰其“重大影响”以及“帮助在 NeurIPS 社区及更广泛领域建立了‘生物合理性’学习规则这一新子领域”。
尽管有令人印象深刻的理论贡献,FA 的承诺伴随着一个关键局限性。虽然在与 BP 在浅层全连接网络中具有竞争力,但传统 FA 无法扩展到卷积架构和更复杂的数据集 ?(?, ?)。根本问题是双重的:随着网络深度的增加,固定反馈矩阵与变化的前向权重之间的错位导致梯度信号在各层之间呈指数级消失或爆炸,并且 FA 梯度相对于真实 BP 梯度的角度在底层无法收敛。这些失效模式在浅层网络中是可以管理的,但在深层网络中变得关键,从而限制了 FA 在现代深度学习典型的大型架构中的适用性。尽管有令人印象深刻的理论贡献,FA 的承诺伴随着一个关键局限性。虽然在与 BP 在浅层全连接网络中具有竞争力,但传统 FA 无法扩展到卷积架构和更复杂的数据集 ?(?, ?)。根本问题是双重的:随着网络深度的增加,固定反馈矩阵与变化的前向权重之间的错位导致梯度信号在各层之间呈指数级消失或爆炸,并且 FA 梯度相对于真实 BP 梯度的角度在底层无法收敛。这些失效模式在浅层网络中是可以管理的,但在深层网络中变得关键,从而限制了 FA 在现代深度学习典型的大型架构中的适用性。尽管有令人印象深刻的理论贡献,FA 的承诺伴随着一个关键局限性。虽然在与 BP 在浅层全连接网络中具有竞争力,但传统 FA 无法扩展到卷积架构和更复杂的数据集 ?(?, ?)。根本问题是双重的:随着网络深度的增加,固定反馈矩阵与变化的前向权重之间的错位导致梯度信号在各层之间呈指数级消失或爆炸,并且 FA 梯度相对于真实 BP 梯度的角度在底层无法收敛。这些失效模式在浅层网络中是可以管理的,但在深层网络中变得关键,从而限制了 FA 在现代深度学习典型的大型架构中的适用性。
为了解决这些局限性,人们提出了对 FA 算法的几种修改。最具影响力的修改是由 ?(?) 引入并由 ?(?) 扩展的均匀符号一致反馈(uniform sign-concordant feedback, uSF);反馈权重不再是完全固定和随机的 **B**,而是更新以跟踪对应前向权重的符号。已研究了这种方法变体,包括初始化方法(uSF Init),其中 **B** 由初始反馈权重的幅度缩放;以及严格归一化方法(uSF SN),其中 **B** 还跟踪前向权重的相对幅度。这两种方法都 substantially 改善了梯度对齐,并在 CIFAR-10 和 ImageNet 上恢复了对 BP 的性能竞争力。然而,正如我们在本文中所考察的,这些修改通过逐步重新引入反馈与前向权重之间的依赖关系,悄然削弱了最初使 FA 引人注目的生物学动机。
在这项工作中,我们提出了一个专注于性能的 FA 文献尚未解决的问题:那些改善与 BP 的梯度对齐的修改是否也会导致网络收敛于更类似 BP 的内部表征?我们另外询问实现这种收敛是否需要牺牲生物合理性?为了调查这一点,我们使用 BP、标准 FA、uSF Init 和 uSF SN 在 CIFAR-10 上训练相同的 CNN 架构,并使用中心化核对齐(Centered Kernel Alignment, CKA)分析所得网络以衡量表征相似性,并使用逐层梯度对齐来表征学习过程。这些措施共同允许我们评估修改后的 FA 算法中合理性-性能权衡是否具有相应的表征特征,以及该特征告诉了我们关于深度网络中生物合理性学习极限的什么信息。
参见标题图 1:学习算法的生物合理性分类。绿色表示较高的生物合理性,黄色表示较低的合理性,红色表示不合理。
## 材料与方法
### 学习算法
我们比较了五种学习规则,它们仅在网络中向后传播误差信号的方式上有所不同。在所有情况下,每层的*权重更新*都以标准方式从局部误差信号和突触前激活计算得出;这些方法的差异仅在于如何获取该误差信号。
#### 反向传播(BP)。
标准反向传播通过转置前向权重矩阵,在第 $l$ 层计算误差信号 $\boldsymbol{\delta}^l=\partial\mathcal{L}/\partial\mathbf{u}^l$:
$$
\boldsymbol{\delta}^l=\left(W^{l+1\top}\boldsymbol{\delta}^{l+1}\right)\odot f'\!\left(\mathbf{u}^l\right), \quad (1)
$$
其中 $\mathcal{L}$ 是损失,$\mathbf{u}^l$ 是第 $l$ 层的预激活值,$f'$ 是激活函数的导数,$\odot$ 表示逐元素乘积。对于卷积层,转置操作对应于使用旋转 180° 的前向核 $\bar{W}^{l+1}$ 进行卷积:
$$
\boldsymbol{\delta}^l_i=\left(\bar{W}^{l+1}_i*\boldsymbol{\delta}^{l+1}_i\right)\odot f'\!\left(\mathbf{u}^l_i\right), \quad (2)
$$
其中 $*$ 表示卷积,$i$ 索引通道。这需要反向路径具有前向权重的确切知识——即“权重传输问题”?(?, ?)。
#### 反馈对齐(FA)。
反馈对齐 ?(?) 使用在训练开始时固定的随机反馈矩阵 $B$ 替换转置的前向权重:
$$
\boldsymbol{\delta}^l=\left(B^{l+1}\,\boldsymbol{\delta}^{l+1}\right)\odot f'\!\left(\mathbf{u}^l\right). \quad (3)
$$
权重更新规则与 BP 完全相同。
#### 卷积层中的 FA:密集 vs. Toeplitz 反馈。
原始 FA 公式 ?(?) 是为全连接网络开发的。将 FA 扩展到卷积架构,我们确定了两种自然形式:
**FA(Random)*密集矩阵乘法*。** 反馈作为固定随机矩阵 $B\in\mathbb{R}^{d_{\text{out}}\times d_{\text{in}}}$ 与传入误差信号之间的密集矩阵-向量积应用。这将卷积层的反向传递视为全连接,完全丢弃卷积的空间结构。
**FA(Toeplitz)*卷积反馈*。** 反馈作为使用固定随机核 $B_0\in\mathbb{R}^{C_{\text{out}}\times C_{\text{in}}\times k_H\times k_W}$ 的转置卷积应用:
$$
\tilde{\boldsymbol{\delta}}^l=B_0*^{\!\top}\boldsymbol{\delta}^{l+1}, \quad (4)
$$
其中 $*^{\!\top}$ 表示转置卷积(与前向层具有相同的填充和步幅)。
#### 均匀符号一致反馈(uSF)变体。
?(?) 识别出 FA 误差信号与真实 BP 梯度之间的角度对齐作为成功 FA 学习的共同特征,表明网络首先将其权重与反馈对齐,然后才记忆数据。在此基础上,?(?) 提出在反馈和前向权重之间强制执行*符号一致性*(sign concordance)——一种轻量级的对齐形式——以缩小深度卷积网络中的性能差距:
**uSF Init**:训练步骤 $t$ 处的反馈矩阵为
$$
B^l_t=\left\|B^l_0\right\|\odot\operatorname{sign}\!\left(W^l_t\right), \quad (5)
$$
其中 $B^l_0$ 是初始随机反馈矩阵。这保留了初始化时的随机幅度,但在每一步复制当前前向权重的符号模式。
**uSF SN(严格归一化)**:反馈为
$$
B^l_t=\|W^l_t\|_2\frac{\operatorname{sign}\!\left(W^l_t\right)}{\|\operatorname{sign}\!\left(W^l_t\right)\|_2}, \quad (6)
$$
这将反馈归一化以匹配前向权重的谱范数,同时仅使用符号信息。值得注意的是,在 uSF SN 下,$B^l_t$ 完全由 $W^l_t$ 决定——初始随机矩阵 $B^l_0$ 不起作用。
两种 uSF 变体都在卷积层中使用 Toeplitz(卷积)反馈结构。
#### 实现细节。
在训练开始时,反馈矩阵 $B_0$ 从 $\mathcal{N}(0,\sigma^2I)$ 中抽取,其中 $\sigma^2$ 是缩放因子。我们采用 ?(?) 中的架构 1,并使用 Adam 优化器 ?(?) 在 CIFAR-10 ?(?) 上训练直至收敛。为了可比性,我们设置了一个共同的全局种子。完整细节见补充信息。
### 梯度对齐与符号一致性
#### 梯度对齐。
FA 成功学习的一个特征是,前向权重在学习过程中逐渐与固定反馈矩阵对齐 ?(?)。我们通过计算真实 BP 梯度 $\partial\mathcal{L}/\partial\mathbf{u}^l$ 与 FA 反馈信号 $\tilde{\boldsymbol{\delta}}^l$ 之间的角度来跟踪这种对齐。
#### 符号一致性。
我们测量权重条目的比例,其中 $\operatorname{sign}(W^l_t)=\operatorname{sign}(B^l_0)$。由于 uSF 方法通过构建强制符号一致,我们仅对未修改的 FA 变体(FA Random 和 FA Toeplitz)跟踪此指标,以调查符号一致性是否自然地伴随角度对齐出现。
### 中心化核对齐(CKA)
为了比较不同方法学习到的内部表征,我们使用线性中心化核对齐(CKA)?(?),它以不变于正交变换和各向同性缩放的方式测量两组神经激活之间的相似性。我们的实现遵循 ?(?)。对于每个 FA 变体,我们计算 BP 模型和 FA 模型之间的逐层 CKA 矩阵。从未训练的数据中,我们还评估了 BP 和 FA 方法都正确分类的样本子集上的 CKA,以及 BP 成功但 FA 方法失败的样本——在这些样本中,表征差异最大。
### 特征可视化
为了理解每种方法的卷积滤波器学会检测*什么*,我们进行了有针对性的特征可视化分析。而不是检查所有通道,我们设计了一个流水线,识别与特定分类决策最相关的通道,然后通过最大化激活它们的真实图像来表征这些通道。
#### 关注狗。
初步失败分析显示,“狗”类别是 FA(Random)和 FA(Toeplitz)相对于 BP 表现出最大准确率缺陷的类别。因此,我们将特征可视化集中在狗类上,以了解这些方法未能学到的关于狗判别性特征的内容。
#### 通过 GradCAM 风格的重要性识别影响通道。
对于每种方法 $m$ 和每个卷积层 $\ell\in\{\text{conv1},\text{conv2}\}$,我们计算从 Grad-CAM ?(?) 改编的每通道重要性分数。对于测试集中的每个狗图像 $\mathbf{x}_i$,我们执行前向传递,记录第 $\ell$ 层通道 $c$ 的激活 $A_c^{(\ell)}\in\mathbb{R}^{H\times W}$。然后我们从模型自身的预测类别 $\hat{y}_i=\arg\max_k f_k(\mathbf{x}_i)$(不一定是地面真值标签)反向传播,以获得梯度 $\frac{\partial f_{\hat{y}_i}}{\partial A_c^{(\ell)}}$。通道 $c$ 对于图像 $i$ 的重要性为:
$$
\alpha_{c,i}^{(\ell)}=\left\|\,\overline{g}_{c,i}^{(\ell)}\cdot\overline{A}_{c,i}^{(\ell)}\,\right\|, \quad (7)
$$
其中 $\overline{g}_{c,i}^{(\ell)}$ 和 $\overline{A}_{c,i}^{(\ell)}$相似文章
AI 对齐:我们能信任 AI 任务背后的推理过程吗?
讨论了 Anthropic 关于 AI 对齐的研究,特别是模型在训练期间看似对齐,但其内部推理过程却不透明的问题。
我们的对齐研究方法
OpenAI 阐述了他们的对齐研究方法,强调了强化学习从人类反馈 (RLHF) 作为他们用于对齐已部署语言模型(如 InstructGPT)的主要技术。他们讨论了以最少计算量实现相比大 100 倍模型的显著偏好,但承认当前的局限性,并提出了一项长期战略,即利用 AI 系统来加速人类无法单独实现的对齐研究。
让AI更像人类一样观察世界
Google DeepMind在《自然》杂志发表了一篇论文,详细介绍了一种将AI视觉表征与人类认知结构对齐的方法,从而提升模型的鲁鲁棒性和可靠性。
@AnthropicAI: AI模型还不是通用的对齐研究人员。在大多数对齐研究任务上,进展并不容易验证……
Anthropic报告称,Claude AI模型可以加速对齐研究的实验和探索,尽管他们承认当前的模型还不是通用的对齐研究人员,且对于模糊的研究任务,进展验证仍然具有挑战性。
结合均衡传播的树突神经网络
本文探讨了将树突神经网络与均衡传播相结合,表明与标准均衡传播相比,这种具有生物学合理性的方法在具有挑战性的数据集上提高了性能。