标签
一份精心整理的10个免费AI学习资源清单,包括课程、新闻通讯、播客和互动书籍,来自3Blue1Brown、Andrej Karpathy、Andrew Ng等专家。
本文介绍了用于计算神经网络可信鲁棒性认证的瓣心距度量(apothem measure),证明了体积最优认证的难解性,并提出了ParallelepipedoNN系统,在MNIST和Fashion MNIST数据集上实现了最小边长两倍的提升。
宣布一篇关于数学对称性的 arXiv 笔记,该对称性将经典MLP与Gated MLP连接起来,超越了经验性能。
探讨了大语言模型如何利用特征叠加将海量知识压缩至有限空间,并用生物学类比解释了维度与特征的区别。
本文介绍了'Rosetta Neurons'——跨越不同神经网络的通用神经元——并展示它们以亚线性幂律缩放,随着规模增大变得更具选择性和单义性,从而实现几乎与oracle性能相匹配的数据过滤。
一条推文推广了斯坦福大学的免费CS324课程,该课程关于大型语言模型,用一个老鼠吃奶酪的简单例子来解释LLM的工作原理,并包含交互式演示。
本文对神经网络中的叠加现象进行了数学分析,推导了具有幂激活函数的简单自编码器的L2重建损失的上下界,验证了Elhage等人的实证结果。
本文在冲击波理论与随机梯度下降的对称商学习动力学之间建立了数学上严谨的联系,表明在对称约化和粗粒化后,动力学满足粘性Hamilton-Jacobi方程和Burgers型方程,激波形成时间由损失曲率控制。
麻省理工学院研究人员合著的一篇论文表明,通用策略梯度算法在不完全信息博弈中可以胜过专门的博弈论算法,挑战了该领域长期以来的假设。
本文介绍了CARLOS,一种深度强化学习算法,它利用聚合深度神经网络学习美式期权的连续时间最优停止规则,有效缩小了百慕大与美国期权之间的价值差距,并具有较高的计算效率。
解释为什么扩散模型对图像有效:低频频谱成分占主导,因此去噪先恢复粗略结构,再恢复细节——类似于频谱自回归。
提出一个几何框架来识别“AI engrams”——深度神经网络中的记忆痕迹——将神经科学标准形式化为一个闭式估计器,使得从MLP到LLM的模型能够进行精确的记忆操作。
本文证明,使用基于梯度的方法训练的两层神经网络能够实现学习高斯单指数模型的最优计算-统计权衡,对于所有生成指数,匹配SQ下界至多对数因子,并通过一种新颖的权重扰动技术扩展到稀疏设置。
GRAPE是一种训练框架,在对抗训练过程中逐步暴露参数空间,与CIFAR-10上的固定结构方法相比,能够以更少的参数实现更高的鲁棒精度。
这个帖子认为,标准Transformer存在一个拓扑缺陷:一旦状态表示到达顶层,它们就无法随时间更新信念,随着层数增加导致崩溃。
该线程讨论了AI中的'Jagged Intelligence'概念,将其视为AI学习是一个不适定逆问题的结果,并认为像脚手架和验证这样的外部稳定器是必不可少的。
本文提出了隐式变分拒绝采样(Implicit Variational Rejection Sampling, IVRS),该方法将隐式分布与拒绝采样相结合,以改进变分推断中的后验近似,并引入了隐式重采样证据下界(Implicit Resampling Evidence Lower Bound, IR-ELBO)作为更紧的变分下界。
本文介绍了神经松弛变量,一种原始侧方法,通过将主网络与联合学习的辅助网络耦合,将约束执行转化为回归问题,在单调性和凸性测试上实现零违规,并实现波动率曲面的无套利学习。
本文证明权重范数因果性地控制神经网络中grokking的时间尺度,调和了相互矛盾的论述。通过干预实验,它表明grokking遵循指数延迟定律,且范数大小在不同架构中比学习率更主导grokking时间。
本文认为,最近声称神经网络已解决Fodor和Pylyshyn的系统性挑战的结论为时过早。作者表明,用于组合性的元学习模型在分布外泛化方面失败,甚至在分布内问题上也表现出非系统性行为,从而得出结论:该挑战仍未解决。