标签
本文提出了一种平均场理论,将dropout视为神经网络混沌边缘的微扰,推导出相关性衰减的缩放定律,并为平滑激活函数和类ReLU激活函数建立了不同的普适类。此外,该理论还得到了最优的dropout调度,可在不增加计算成本的情况下降低测试损失。