标签
Bit-Mass理论提出,决定模型准确率的是权重位的总数,而非计算格式。在MNIST上的实验表明,相同的Bit-Mass下,二进制网络与浮点网络性能相当。
本文介绍了对数对齐比(LAR),这是一种训练时度量,用于衡量参数-激活对齐度,并通过捕捉权重谱和激活谱的分散程度来预测泛化能力。在grokking和30亿参数语言模型上的实验表明,LAR能够跟踪从记忆到泛化的转变,并在无需留出数据的情况下标记过拟合。
本文研究了为什么更大的模型表现优于较小的模型,将其归因于梯度干扰减少和资源分配优化,这使得它们即使在无限数据下也能学习罕见且复杂的任务。在合成数据和OLMo模型上的实验验证了,更大的模型由于对常见任务的梯度更新较弱,能够避免覆盖罕见任务的特征。
本文为物理信息机器学习开发了一种PAC-Bayesian框架,为无界损失提供了高概率泛化保证。它提出了一种多任务视角,联合处理数据保真度、偏微分方程残差和边界条件,并引入了一种自界限学习算法。
本文识别神经网络训练为通过哈密顿-雅可比初值问题的搜索,表明残差网络、Transformer和RNN离散化了同一类粘性哈密顿-雅可比方程。推导出定量结果,包括极小极大最优泛化率、对抗鲁棒性界和闭式影响函数。
提出了一种基于验证的算法,用于计算神经网络精确SHAP值的可证明边界,可扩展到比先前精确方法大得多的搜索空间。
本文提出了一种表征动力学的分岔理论,用于检测神经网络在训练过程中何时获得结构化表征。该理论利用对GMM探针的黑塞矩阵分析,得到的比值β/β_c作为一种无标签的相位坐标,能够预测可用结构的出现,并在训练早期预判稀疏自编码器中的特征可解释性。
ai-by-hand-excel是一个开源的Excel工作簿集合,通过让用户逐单元格查看数学运算来教授神经网络、反向传播和transformers等AI概念,使模型内部机制更直观。
本文介绍了一项新任务——含例外的传递推理,并通过分析刻画了神经网络模型(核岭回归)如何平衡关系泛化与记忆。该理论在预训练语言模型中得到验证,显示了理论预见的系统性错误。
本线程解释了雅可比矩阵背后的直觉及其在人工智能和机器学习中的广泛应用,包括反向传播、归一化流、计算机视觉和机器人技术。
Figure AI 的 F.03 人形机器人,搭载 Helix-02 神经网络,在 200 小时内自主分拣了 249,560 个包裹,未出现硬件故障,效率接近人类水平。
一篇中文文章,整理并翻译了@sairahul1创作的20张手绘AI科普图,覆盖从神经网络到Agent的核心概念,适合初学者系统了解AI技术栈。
作者认为确定性决策树将始终优于神经网络,声称AI的成功仅仅是因为构建此类树存在计算限制。
本立场论文认为,贝叶斯神经网络中基于采样的推理已在计算效率上与基于优化的方法持平,并即将取代后者,提供更优的不确定性量化和预测性能。
本文引入表示差距(Representation Gap),一个具有更好渐近动态的神经网络泛化误差度量。通过几何视角和最优量化理论,作者证明该度量由任务的内在维度主导,并在合成和真实数据集上进行了实证验证。
本文提出了一种平均场理论,将dropout视为神经网络混沌边缘的微扰,推导出相关性衰减的缩放定律,并为平滑激活函数和类ReLU激活函数建立了不同的普适类。此外,该理论还得到了最优的dropout调度,可在不增加计算成本的情况下降低测试损失。
本文将均衡传播扩展到斜梯度系统,并展示了深度能量模型与哈密顿神经网络之间的等价性,重点关注扩散耦合的Fitzhugh-Nagumo神经元。它还推导了此类网络中用于推理的逐层哈密顿递归关系。
本文介绍了使用三元组损失生成用于Horn逻辑推理的高质量嵌入的新方法,包括平衡训练样本生成和困难样本强调的技术,这些方法提高了下游逻辑推理的效率。