标签
推荐了2026年学习AI的15个YouTube频道,按学习阶段分类排序,并给出新手、工程项目、前沿趋势的学习路径建议。
关于矩阵循环单元(MRU)的更新,这是一种线性时间复杂度的注意力机制替代方案。作者探索了稳定训练的方法,发现正交矩阵表现不佳,而LDU分解效果最佳,并表明MRU在TinyStories等较大数据集上表现不如Transformer。
一篇关于知识蒸馏的教育性概述,涵盖其历史、核心概念(如softmax和温度)、类型、缩放定律以及包括DeepSeek-R1在内的实际示例。
一个涵盖LLM内部原理的全面15部分系列,从分词到服务部署,基于Gemma 4 12B的实际配置。
本文提出了eCNNTO,一种带有残差连接的卷积神经网络,通过从早期迭代历史中预测接近最优的密度来加速基于密度的拓扑优化,实现了最多97%的迭代次数减少,并在不同边界条件、几何形状和网格分辨率下展现出强大的泛化能力。
介绍 ITNet,一种基于可学习积分变换的神经网络架构,统一了卷积、注意力与递归,在多种模态上取得了强劲结果。
David Ha和Jürgen Schmidhuber回顾了诸如Transformer、无监督预训练、知识蒸馏和残差网络等基础深度学习技术是如何在1991年的慕尼黑开创的,为当前的人工智能热潮奠定了基础。
作者解释了算子融合是torch.compile加速的关键机制,并提供了一个仅500行的Python最小实现及配套的笔记作为教学工具。
一条推文推荐了一份免费的深度学习资源,包含68个交互式Python笔记本,内容从基础知识到GANs、扩散模型等先进技术,非常适合自学者。
提出了一种基于Wasserstein-GAN的方法,用于传感器引起的分布漂移的无监督校准,并在跟踪探测器玩具模型和带有老化效应的模拟量能器数据上进行了验证。
本文研究在交叉熵损失下,权重范数是直接控制神经网络中的grokking延迟,还是其效果通过对数几率尺度和softmax饱和来中介。实验表明,延迟几乎完全由有效对数几率尺度解释,权重范数的贡献微乎其微。
关于基于AI的土壤湿度估计与分类模型的结构化综述,涵盖统计时间序列、地统计学、经典机器学习、深度学习以及概率/贝叶斯方法。
本文介绍QG-MIL,一种门控Transformer聚合器,缓解了医学影像多实例学习中的注意力集中问题,无需辅助损失即可实现领域无关的性能。
探讨了让AI系统像人类阅读教科书一样从文档中发展深层专业知识的挑战,强调了一种持续学习的形式。
一条推文分享了一个使用共享内存归约的朴素CUDA softmax实现,并指出归约非常直接。
Aman Chadha 创建并发布了涵盖斯坦福AI课程及高级主题的全面免费学习笔记,可在 aman.ai 获取。
MoCo-AIS 是一个统一的对比学习框架,用于计算船只轨迹的相似度,并在大规模AIS数据集上进行了评估。
一种用于从OCO-2光谱中概率反演CO2柱浓度的深度学习框架,采用拉普拉斯近似和归一化流,相比传统方法实现了更快的推理和更好的不确定性量化。