theory

#theory

从隐私到泛化：DP-SGD的线性最大信息界

arXiv cs.LG ↗ · 2026-05-27 缓存

本文证明了DP-SGD近似最大信息的一个有限样本界，该界最多与数据集大小成线性关系，从而为差分隐私训练的模型带来了PAC-Bayes泛化界。

0 人收藏 0 人点赞

#theory

深度学习的哈密顿-雅可比理论

Hugging Face Daily Papers ↗ · 2026-05-27 缓存

本文识别神经网络训练为通过哈密顿-雅可比初值问题的搜索，表明残差网络、Transformer和RNN离散化了同一类粘性哈密顿-雅可比方程。推导出定量结果，包括极小极大最优泛化率、对抗鲁棒性界和闭式影响函数。

0 人收藏 0 人点赞

#theory

Grokking延迟的首达时间预测：基于AdamW的校准定律与因果验证

arXiv cs.LG ↗ · 2026-05-20

本文首次对AdamW优化器下的grokking延迟进行了定量预测，推导出封闭形式的定律，并在算法任务上以高精度进行了验证。

0 人收藏 0 人点赞

#theory

高效条件化：伪观测批量贝叶斯优化为何有效及何时失效

arXiv cs.LG ↗ · 2026-05-20

本文为伪观测批量贝叶斯优化提供了一个统一的理论框架，证明了高斯过程（Gaussian processes）能产生不同的批量点，并且像Constant Liar和Kriging Believer这样的常见方法是一个单一条件化机制的实例。它引入了结构多样性诊断（SDD）来测试代理模型兼容性，并在多个基准函数和超参数调优中验证了预测结果。

0 人收藏 0 人点赞

#theory

立场：思想应成为机器学习研究的核心

arXiv cs.LG ↗ · 2026-05-18 缓存

这篇立场论文认为，机器学习研究应优先考虑思想而非基准和理论保证，提出了一种“Ideas First”框架，该框架重视行为特征和定制实验，以促进公平性和科学理解。

0 人收藏 0 人点赞

#theory

从通用到专长表示

arXiv cs.LG ↗ · 2026-05-14 缓存

本文证明，在完全非参数设定下，无需干预或参数约束，即可从通用模型中识别出任务相关的潜在表示，实现了跨时间步和每一步内的层次化可识别性保证。

0 人收藏 0 人点赞

#theory

我发布了 CTNet：一种将计算视为持久状态演化的架构 [D]

Reddit r/MachineLearning ↗ · 2026-04-23

CTNet 提出了一种新型神经网络架构，把计算过程重新定义为持久状态的演化，而非逐层重写，融合了可重入记忆、多尺度一致性和投影式输出。

0 人收藏 0 人点赞

#theory

# 深度线性网络中的非线性计算来源：[https://openai.com/index/nonlinear-computation-in-deep-linear-networks/](https://openai.com/index/nonlinear-computation-in-deep-linear-networks/) `` ``` 1x = tf.placeholder(dtype=tf.float32, shape=[batch_size,784]) 2y = tf.placeholder(dtype=tf.float32, shape=[batch_size,10]) 34w1 = tf.Variable(np.random.normal(scale=np.sqrt(2./784),size=[784,512]).astype(np.float32)) 5b1 = tf.Variable(np.zeros(512,dtype=np.float32)) 6w2 = tf.Variable(np.random

0 人收藏 0 人点赞

theory

提交意见反馈