theory

标签

Cards List
#theory

从隐私到泛化:DP-SGD的线性最大信息界

arXiv cs.LG · 2026-05-27 缓存

本文证明了DP-SGD近似最大信息的一个有限样本界,该界最多与数据集大小成线性关系,从而为差分隐私训练的模型带来了PAC-Bayes泛化界。

0 人收藏 0 人点赞
#theory

深度学习的哈密顿-雅可比理论

Hugging Face Daily Papers · 2026-05-27 缓存

本文识别神经网络训练为通过哈密顿-雅可比初值问题的搜索,表明残差网络、Transformer和RNN离散化了同一类粘性哈密顿-雅可比方程。推导出定量结果,包括极小极大最优泛化率、对抗鲁棒性界和闭式影响函数。

0 人收藏 0 人点赞
#theory

Grokking延迟的首达时间预测:基于AdamW的校准定律与因果验证

arXiv cs.LG · 2026-05-20

本文首次对AdamW优化器下的grokking延迟进行了定量预测,推导出封闭形式的定律,并在算法任务上以高精度进行了验证。

0 人收藏 0 人点赞
#theory

高效条件化:伪观测批量贝叶斯优化为何有效及何时失效

arXiv cs.LG · 2026-05-20

本文为伪观测批量贝叶斯优化提供了一个统一的理论框架,证明了高斯过程(Gaussian processes)能产生不同的批量点,并且像Constant Liar和Kriging Believer这样的常见方法是一个单一条件化机制的实例。它引入了结构多样性诊断(SDD)来测试代理模型兼容性,并在多个基准函数和超参数调优中验证了预测结果。

0 人收藏 0 人点赞
#theory

立场:思想应成为机器学习研究的核心

arXiv cs.LG · 2026-05-18 缓存

这篇立场论文认为,机器学习研究应优先考虑思想而非基准和理论保证,提出了一种“Ideas First”框架,该框架重视行为特征和定制实验,以促进公平性和科学理解。

0 人收藏 0 人点赞
#theory

从通用到专长表示

arXiv cs.LG · 2026-05-14 缓存

本文证明,在完全非参数设定下,无需干预或参数约束,即可从通用模型中识别出任务相关的潜在表示,实现了跨时间步和每一步内的层次化可识别性保证。

0 人收藏 0 人点赞
#theory

我发布了 CTNet:一种将计算视为持久状态演化的架构 [D]

Reddit r/MachineLearning · 2026-04-23

CTNet 提出了一种新型神经网络架构,把计算过程重新定义为持久状态的演化,而非逐层重写,融合了可重入记忆、多尺度一致性和投影式输出。

0 人收藏 0 人点赞
#theory

深度线性网络中的非线性计算

OpenAI Blog · 2017-09-29 缓存

# 深度线性网络中的非线性计算 来源:[https://openai.com/index/nonlinear-computation-in-deep-linear-networks/](https://openai.com/index/nonlinear-computation-in-deep-linear-networks/) `` ``` 1x = tf.placeholder(dtype=tf.float32, shape=[batch_size,784]) 2y = tf.placeholder(dtype=tf.float32, shape=[batch_size,10]) 34w1 = tf.Variable(np.random.normal(scale=np.sqrt(2./784),size=[784,512]).astype(np.float32)) 5b1 = tf.Variable(np.zeros(512,dtype=np.float32)) 6w2 = tf.Variable(np.random

0 人收藏 0 人点赞
← Previous
← 返回首页

提交意见反馈