监督训练在多种生物合理学习规则下迅速降低早期视觉皮层对齐度

arXiv cs.LG 2026/06/01 04:00 论文

摘要

本文追踪了使用不同学习规则（反向传播、反馈对齐、预测编码、STDP）的监督训练如何降低神经网络表征与早期视觉皮层fMRI数据之间的对齐度，发现未训练的网络在V1对齐度上通常达到或超过训练后的网络。

arXiv:2605.30556v1 公告类型：新摘要：随机、未训练的网络在早期视觉皮层表征相似性上始终达到或超过训练后的网络。这一令人费解的发现挑战了学习能改善大脑对齐的假设。我们通过追踪四种学习规则（反向传播（BP）、反馈对齐（FA）、预测编码（PC）和脉冲时序依赖可塑性（STDP））在训练过程中与人类fMRI数据的表征相似性分析（RSA）对齐度来研究这一问题。使用THINGS数据库中的720张物体图像以及三个被试者在六个视觉感兴趣区上的fMRI数据，我们在八个训练检查点（从第0到第40轮）测量模型与大脑表征差异矩阵之间的Spearman相关系数。我们发现：（1）仅一轮训练就将V1对齐度降低了25%~90%，具体取决于学习规则；（2）反向传播对V1对齐度的降低最为严重（δr = -0.080），而预测编码和STDP则保持了明显更多的对齐度（δr ~ -0.04）；（3）在物体选择性皮层（LOC）中出现了一个较弱的相反趋势，其中BP在训练中对齐度增加最大，尽管绝对变化很小。这些结果表明，未训练的架构仅通过归纳偏置就能捕捉低级视觉统计信息，并且全局误差信号（BP）比局部学习规则（PC、STDP）更激进地重塑早期表征，后者能更好地保持类似大脑的结构。

查看原文

查看缓存全文

缓存时间: 2026/06/01 09:27

# 监督训练在多种生物合理学习规则下迅速退化早期视觉皮层对齐
来源: https://arxiv.org/html/2605.30556
\(2026年5月\)

###### 摘要

随机、未经训练的神经网络在与早期视觉皮层的表征相似性上，始终达到或超过经过训练的网络。这一令人困惑的发现挑战了“学习能改善大脑对齐”的假设。我们通过追踪四种学习规则（反向传播BP、反馈对齐FA、预测编码PC、脉冲时序依赖可塑性STDP）在训练过程中与人类fMRI数据的表征相似性分析（RSA）对齐情况来探究这一问题。我们使用了THINGS数据库中的720张物体图像以及三名被试在六个视觉ROI上的fMRI数据，在八个训练检查点（epoch 0–40）测量模型与大脑表征异同矩阵之间的斯皮尔曼相关。我们发现：（1）根据学习规则的不同，一个训练epoch就会使V1对齐降低25–90%；（2）反向传播对V1对齐的降低最为严重（Δr=−0.080），而预测编码和STDP保持了更多的对齐（Δr≈−0.04）；（3）在物体选择皮层（LOC）中出现了较弱的相反趋势，其中BP在训练期间对齐增加最大，但绝对变化很小。这些结果表明，未经训练的架构仅通过归纳偏置就捕获了低层视觉统计信息，而全局误差信号（BP）比局部学习规则（PC，STDP）更激进地重塑了早期表征，后者更好地保留了类似大脑的结构。

## 1 引言

越来越多的工作表明，在视觉任务上训练的深度神经网络会发展出与灵长类视觉皮层神经反应相关的内部表征（Yamins等，2014（https://arxiv.org/html/2605.30556#bib.bib13）；Khaligh-Razavi和Kriegeskorte，2014（https://arxiv.org/html/2605.30556#bib.bib5）；Cichy等，2016（https://arxiv.org/html/2605.30556#bib.bib2））。这种对齐被视为优化生态相关任务能产生类似大脑计算的证据。然而，一个令人惊讶的反常发现出现了：未经训练的随机初始化网络，在与早期视觉区域（尤其是V1）的对齐上，常常达到或超过经过训练的网络（Leutenegger，2026（https://arxiv.org/html/2605.30556#bib.bib6））。

这提出了一个根本性问题：学习是改善了大脑对齐，还是削弱了它？先前的工作只在单一训练终点比较了学习规则（Leutenegger，2026（https://arxiv.org/html/2605.30556#bib.bib6）；Lillicrap等，2016（https://arxiv.org/html/2605.30556#bib.bib7）），但训练中对齐如何变化的动态过程仍未得到探索。理解这些动态可能揭示随机权重优势是反映了网络架构的内在属性，还是训练导致的主动退化。

我们通过测量在四种跨越生物合理性谱系的学习规则（反向传播BP、反馈对齐FA（Lillicrap等，2016（https://arxiv.org/html/2605.30556#bib.bib7））、预测编码PC（Rao和Ballard，1999（https://arxiv.org/html/2605.30556#bib.bib10）；Whittington和Bogacz，2017（https://arxiv.org/html/2605.30556#bib.bib12））和脉冲时序依赖可塑性STDP（Bi和Poo，1998（https://arxiv.org/html/2605.30556#bib.bib1）；Masquelier和Thorpe，2007（https://arxiv.org/html/2605.30556#bib.bib8））训练过程中，与人类fMRI的表征相似性来填补这一空白。通过在CIFAR-10训练的40个epoch中，在八个检查点提取模型表征异同矩阵（RDM），并将其与THINGS数据集（Hebart等，2019（https://arxiv.org/html/2605.30556#bib.bib3），2023（https://arxiv.org/html/2605.30556#bib.bib4））的fMRI RDM进行比较，我们追踪了每种学习规则如何相对于视觉皮层重塑表征几何。

我们的结果揭示了三个关键发现。首先，所有学习规则都会降低V1对齐，但速度差异巨大：BP在一个epoch内就将V1对齐降低了90%，而PC和STDP保留了约70%。其次，退化程度与误差信号的全局性相关：传播精确、逐层误差梯度（BP）的规则比依赖局部计算（PC、STDP）的规则更具破坏性。第三，在物体选择皮层（LOC）中出现了较弱的相反趋势，其中BP在训练期间对齐增益最大，表明侵蚀V1结构的相同机制也可能在高级区域构建任务相关的表征。

## 2 方法

### 2.1 网络架构

所有学习规则都实现在一个共享的卷积架构上，该架构由三个卷积块（Conv1：32个滤波器，Conv2：64个滤波器，Conv3：128个滤波器；每个使用3×3核、批归一化、ReLU和2×2最大池化）后接一个全连接层（FC1：512单元）和一个分类头（10类）组成。选择此架构是为了匹配Leutenegger（2026（https://arxiv.org/html/2605.30556#bib.bib6））并确保条件之间的差异反映的是学习规则，而非架构。

### 2.2 学习规则

**反向传播（BP）**。标准监督训练，使用交叉熵损失、Adam优化器（lr=10⁻³，权重衰减10⁻⁴）、余弦退火调度、梯度裁剪到1.0以及丢弃法（0.3）。

**反馈对齐（FA）**。遵循Lillicrap等人（2016（https://arxiv.org/html/2605.30556#bib.bib7）），后向传播在所有卷积层使用固定的随机反馈权重，而不是前向权重的转置。这用生物上更合理的非对称路径替代了BP所需的对称权重传输。SGD优化器（lr=5×10⁻⁴，动量0.9）。

**预测编码（PC）**。遵循Rao和Ballard（1999（https://arxiv.org/html/2605.30556#bib.bib10））；Whittington和Bogacz（2017（https://arxiv.org/html/2605.30556#bib.bib12）），每一层通过学到的转置卷积维持对下一层的预测。在推理期间，表征经过T=10步迭代精化以最小化预测误差。前馈权重使用局部预测误差信号（学习率10⁻⁴）更新，并使用Adam训练一个单独的分类头。

**STDP**。遵循Masquelier和Thorpe（2007（https://arxiv.org/html/2605.30556#bib.bib8）），卷积权重使用脉冲时序相关性更新：输入激活转换为泊松脉冲序列，权重变化遵循指数STDP核（A₊=A₋=0.003，τ₊=τ₋=20ms，T_sim=10步）。使用Adam单独训练一个监督分类头。

**随机权重**。未经训练的基线使用与BP相同的架构（包括批归一化和丢弃法）在初始化时（epoch 0）。

### 2.3 训练

所有模型在CIFAR-10训练图像的随机子集（8000张图像，批量大小128）上训练40个epoch。每种学习规则使用五个随机种子（42、123、456、789、1337）。在八个检查点提取模型激活：epoch 0、1、2、5、10、20、30和40。epoch 0对应于未经训练的随机权重基线。

### 2.4 fMRI数据

我们使用THINGS-fMRI数据集（Hebart等，2023（https://arxiv.org/html/2605.30556#bib.bib4）），该数据集提供了三名人类被试观看自然物体图像时的血氧水平依赖性（BOLD）反应。我们选择了所有被试都有fMRI数据的720张图像。从六个感兴趣区域（ROI）提取反应：V1、V2、V3、V4、LOC和IT。使用相关距离计算被试水平的表征异同矩阵（RDM）。

### 2.5 表征相似性分析

在每个检查点，将720张THINGS图像（224×224像素，ImageNet归一化）输入模型。对层激活进行全局平均池化以产生特征向量，并使用相关距离计算模型RDM。大脑-模型对齐量化为模型RDM与fMRI RDM上三角之间的斯皮尔曼等级相关。我们报告每个ROI的最优层对齐（即在每个epoch独立评估时，对每个ROI产生最高斯皮尔曼r的层）。

### 2.6 统计检验

所有统计比较使用基于五个种子的配对、单侧置换检验，以种子作为配对单位。由于只有五个种子，仅有2⁵=32种可能的符号分配，因此可达到的最小单侧p值为1/32≈0.031；当一个效应在全部五个种子中方向一致时，比较恰好达到这个下限。因此我们将p=0.031报告为完全一致方向效应的证据，而非小尾概率，并将五种子设计视为统计分辨率的极限（第4.4节（https://arxiv.org/html/2605.30556#S4.SS4））。显著性水平设为α=0.05。对关键比较报告Cohen's d效应量。

## 3 结果

### 3.1 训练普遍降低V1对齐

在初始化时（epoch 0），所有模型显示出相当的V1对齐（斯皮尔曼r≈0.09–0.10；图1（https://arxiv.org/html/2605.30556#S3.F1）A）。经过一个epoch的训练后，所有学习规则都表现出V1对齐降低，但不同规则之间的幅度差异巨大（图1（https://arxiv.org/html/2605.30556#S3.F1）B）。反向传播显示出最严重的退化，一个epoch后失去90%的V1对齐（r:0.102→0.011，配对置换检验p=0.031）。反馈对齐显示出中等下降，为49%（r:0.089→0.044）。预测编码和STDP显示出最少的退化，分别仅损失25%和31%（PC: r:0.093→0.070；STDP: r:0.097→0.067）。

参见图注
图1：训练期间的V1大脑对齐。(A)模型RDM（最优层）与V1 fMRI RDM在整个训练epoch中的斯皮尔曼r。阴影区域：5个种子上的±1标准差。灰色虚线：未经训练的基线。(B)相对于epoch 0的对齐变化。BP（蓝色）下降最陡；PC（绿色）和STDP（橙色）退化最少。(C)epoch 40时的最终对齐。星号表示与未经训练基线有显著差异（配对置换检验，p<0.05）。点表示单个种子值。到epoch 40时，排序稳定为：PC（r=0.064±0.012）> STDP（0.059±0.010）> BP（0.022±0.006）≈ FA（0.019±0.006）。PC和STDP都保留了显著高于BP的V1对齐（配对置换检验，p=0.031，这是五个种子的分辨率下限；两者的Cohen's d>5，反映了极低的种子间方差）。所有经过训练的模型都显示出显著低于未经训练基线的V1对齐（所有比较p=0.031，即每个种子都显示出相同的排序；图1（https://arxiv.org/html/2605.30556#S3.F1）C）。

### 3.2 退化模式泛化到早期视觉区域

V1退化模式扩展到V2和V3，BP始终显示出最大的下降，而PC/STDP保留最多的对齐（图2（https://arxiv.org/html/2605.30556#S3.F2））。在V4中，模式减弱：所有规则都显示出中等退化，规则间差异较小。值得注意的是，在LOC和IT中，趋势逆转或变平（见第3.3节（https://arxiv.org/html/2605.30556#S3.SS3））。

参见图注
图2：所有六个ROI的训练期间fMRI对齐。同图1（https://arxiv.org/html/2605.30556#S3.F1）A的惯例。退化模式在早期视觉区域（V1–V3）最强，在高级区域（LOC、IT）消失。
### 3.3 物体选择皮层的相反趋势

虽然训练降低了与早期视觉皮层的对齐，但相反的趋势微弱地出现在LOC中（图3（https://arxiv.org/html/2605.30556#S3.F3））。反向传播，那个对V1对齐退化最严重的规则，在训练期间显示出LOC对齐的最大增加（epoch 0: r=−0.001；epoch 40: r=0.011；Δr=+0.011）。其他规则显示较小或可忽略的变化（FA: Δr=+0.005；PC: Δr=−0.001；STDP: Δr=+0.001）。这些LOC变化绝对值很小，我们没有对其进行显著性检验，因此应将其视为一种提示性趋势，而非已确立的效应。

参见图注
图3：V1和LOC中的相反趋势。(A)对于所有规则，V1对齐在训练期间下降。(B)仅BP的LOC对齐增加，而局部规则（PC、STDP）显示无变化。相同的y轴刻度突出了幅度差异。这种分离表明了一种权衡：BP的全局误差信号重塑了整个网络的表征，在退化早期视觉结构的同时，在高层构建了任务相关的物体表征。相比之下，局部学习规则缺乏雕刻高层表征所需的自上而下压力，但因此保留了早期视觉统计信息。

### 3.4 种子变异性

在epoch 0时，所有架构紧密聚集在r≈0.09–0.10附近，种子变异性低（图4（https://arxiv.org/html/2605.30556#S3.F4）A）。训练后，规则分成两组：BP和FA收敛到低对齐（r≈0.02），方差低；而PC和STDP维持较高对齐（r≈0.06），方差中等（图4（https://arxiv.org/html/2605.30556#S3.F4）B）。种子间的一致性证实观察到的差异反映了学习规则的系统属性，而非随机波动。

参见图注
图4：种子变异性。(A)epoch 0（未经训练）的V1对齐。所有规则聚集在r≈0.10附近。(B)epoch 40（已训练）的V1对齐。BP和FA降至r≈0.02；PC和STDP保持r≈0.06。箱线图显示单个种子值（圆圈）。

## 4 讨论

### 4.1 为什么训练会降低V1对齐？

我们的核心发现，即监督训练在所有学习规则下都会降低V1对齐，表明未经训练的网络通过其架构性归纳偏置（卷积滤波器、池化、归一化）捕获了低层视觉统计信息，而非通过学习。随后训练将这些表征重塑为任务相关特征，使其偏离V1编码的通用视觉统计信息。这一观点与以下工作一致：明确将网络早期层对齐到灵长类V1会重塑其表征并提高鲁棒性（Safarani等，2021（https://arxiv.org/html/2605.30556#bib.bib11）），这表明V1样结构是一种特定的、可塑造的属性，而非训练的通用副产品。

关键见解是，退化的*程度*取决于学习规则。BP计算精确梯度并在所有层传播精确误差信号，最激进地重塑表征。FA使用随机反馈权重，传递更嘈杂的误差信号，且V1对齐退化较慢（尽管它最终也会达到低对齐）。PC和STDP是局部规则，不传播明确的全局误差，从而

监督训练在多种生物合理学习规则下迅速降低早期视觉皮层对齐度

相似文章

反向传播在一个epoch内摧毁V1脑对齐，追踪BP、FA、预测编码和STDP训练过程中RSA与fMRI的对齐 [R]

反馈对齐在卷积网络中的生物合理性与表征一致性

通过数据中介迁移视角下的涌现与潜意识失调

让AI更像人类一样观察世界

元学习上下文学习实现无需训练的跨被试脑解码

提交意见反馈