标签
Karan(@kmeanskaran)的一条推文,概述了平衡ML和AI的学习路线,涵盖Python、神经网络、NLP、LLMs、部署和智能体AI,并附有Amit寻求初学者指导的回复。
本文介绍了层次涌现框架(HEF),该框架解释了在物理和信息约束下,通过机制景观中的相变,神经网络和生物进化等多样系统如何收敛到相似的内部表示。该框架通过111个grokking实验进行了实证验证,这些实验确认了通用收敛,并识别出一个临界能量阈值。
本文探讨了在非L-光滑目标上梯度下降收敛的最大步长这一开放问题,引入了在稳定性边缘运行且能够全局最小化尖锐度的自适应方法。
本文分析了在将softmax输出转换为FP8(E4M3)时,由于注意力凹陷现象导致的FP8注意力精度损失。它表明正向KV迭代会导致非凹陷注意力值下溢,并提出反向迭代和静态缩放因子S=256来消除下溢,实现了3-10倍的MSE改进。
本文回顾了 Geoffrey Hinton 在神经网络被学术界抛弃的 AI 寒冬中坚持研究长达三十年,最终凭借 AlexNet 在 2012 年 ImageNet 大赛中一举成名,并在 2024 年获得诺贝尔物理学奖的历程。
本文讨论了模型蒸馏对训练分布的惊人鲁棒性,即使与目标分布的重叠很小,以及其对在线/离线策略蒸馏的影响。
一条推文重点介绍了 Chris Potts 关于大型语言模型如何学习语言结构的演讲,进一步强化了 LLM 能够捕捉句法和语义的观点。
本文认为 Transformer 架构本质上是简洁的,意味着它们比其他模型能更高效地表示某些函数。本文提供了理论分析和证明。
这篇ICML 2026论文介绍了Derivative Informed XC-Loss(DI-Loss),这是一种用于机器学习交换关联泛函的训练方法,它在密度矩阵的格拉斯曼流形上引入了一阶和二阶导数监督。在四种架构上,与仅使用能量和密度监督相比,DI-Loss将总能量平均绝对误差(MAE)降低了66%,并改善了TDDFT计算中的激发态预测。
本文提出了一个用于连续环境中深度强化学习的理论框架,利用随机控制理论将其建模为连续时间随机过程。作者刻画了在两层网络无限宽极限下的演员-评论家算法的动力学,并推导了一个在极小的学习率下状态分布无穷小变化的方程。
本文介绍了一种名为 AIcon2abs 的方法论,该方法结合了可视化编程与 WiSARD 无权重神经网络,通过动手实践活动帮助普通大众(包括儿童)理解人工智能概念。该方法将训练与分类作为一等编程构件,使学习型机器与传统程序之间的区别更加直观易懂。
Curatube是一个无干扰的YouTube播放列表界面,旨在帮助专注学习。目前它收录了Andrej Karpathy的《神经网络:从零到英雄》课程。
本文从理论上证明,在群组合任务上训练的两层神经网络可以学习谱表示,其中神经元收敛到不可约表示并实现旋转秩一对齐,为特征学习提供了表示论的解释。
本文提出了神经网络损失景观中曲率指数α的精确分解,解释了为何该指数在不同层类型间存在差异。引入了谱对齐分解,并导出了一个谱传递恒等式,连接曲率、梯度秩衰减和Hessian指数,该恒等式已在多种架构和数据集上得到验证。
本文提供了神经网络在群组合任务中学习结构化表示的理论分析,证明了训练动态驱动神经元以指数收敛速度收敛到不可约群表示。该工作建立了特征学习的表示理论解释,并刻画了矩阵值群表示的低秩压缩现象。
本文探讨了为什么更大的模型性能优于较小的模型,通过形式化分析和实验将其归因于数据引发的神经资源竞争。
斯坦福CS224N课程笔记清晰地介绍了神经网络中反向传播和梯度计算的数学原理,涵盖链式法则、计算图和向量化导数。
本文对五种用于神经网络预测涡轮燃气温度的不确定性量化方法进行了基准测试,评估了它们在覆盖范围、宽度和稳定性方面的权衡,以指导发动机的预测与健康管理。