标签
本文证明了DP-SGD近似最大信息的一个有限样本界,该界最多与数据集大小成线性关系,从而为差分隐私训练的模型带来了PAC-Bayes泛化界。
本文挑战了关于平坦最小值能导致神经网络更好泛化的普遍观点,认为‘弱性’——一种函数简单性的重参数化不变度量——才是真正的驱动力。在MNIST和Fashion-MNIST上的实验结果表明,弱性能够预测泛化,而尖锐性则与之负相关,且随着训练数据增加,大批次泛化优势消失。