标签
本文证明了DP-SGD近似最大信息的一个有限样本界,该界最多与数据集大小成线性关系,从而为差分隐私训练的模型带来了PAC-Bayes泛化界。
本文识别神经网络训练为通过哈密顿-雅可比初值问题的搜索,表明残差网络、Transformer和RNN离散化了同一类粘性哈密顿-雅可比方程。推导出定量结果,包括极小极大最优泛化率、对抗鲁棒性界和闭式影响函数。
本文首次对AdamW优化器下的grokking延迟进行了定量预测,推导出封闭形式的定律,并在算法任务上以高精度进行了验证。
本文为伪观测批量贝叶斯优化提供了一个统一的理论框架,证明了高斯过程(Gaussian processes)能产生不同的批量点,并且像Constant Liar和Kriging Believer这样的常见方法是一个单一条件化机制的实例。它引入了结构多样性诊断(SDD)来测试代理模型兼容性,并在多个基准函数和超参数调优中验证了预测结果。
这篇立场论文认为,机器学习研究应优先考虑思想而非基准和理论保证,提出了一种“Ideas First”框架,该框架重视行为特征和定制实验,以促进公平性和科学理解。
CTNet 提出了一种新型神经网络架构,把计算过程重新定义为持久状态的演化,而非逐层重写,融合了可重入记忆、多尺度一致性和投影式输出。
# 深度线性网络中的非线性计算 来源:[https://openai.com/index/nonlinear-computation-in-deep-linear-networks/](https://openai.com/index/nonlinear-computation-in-deep-linear-networks/) `` ``` 1x = tf.placeholder(dtype=tf.float32, shape=[batch_size,784]) 2y = tf.placeholder(dtype=tf.float32, shape=[batch_size,10]) 34w1 = tf.Variable(np.random.normal(scale=np.sqrt(2./784),size=[784,512]).astype(np.float32)) 5b1 = tf.Variable(np.zeros(512,dtype=np.float32)) 6w2 = tf.Variable(np.random