标签
加州大学助理教授Ernest K. Ryu推出《大语言模型的强化学习》开放课程,结合理论与实践全面解析RLHF、PPO/DPO等LLM训练关键技术及配套资源。该课程为开发者与研究者提供了从基础算法到实战部署的系统学习路径。
一门高效AI课程的第12讲笔记,涵盖 Transformer 与 LLM 基础知识,包括多头注意力机制、位置编码、KV 缓存,以及模型架构与推理效率之间的关联。内容阐释了 Transformer 中的设计选择如何影响内存占用、延迟表现和硬件效率。
文章强调了 Jane Street 通过量化研究推动深度学习前沿的贡献,并着重指出优秀研究人员对此类工作的尊重。
介绍了 Andrej Karpathy 发布的免费三小时 YouTube 课程,内容涵盖大语言模型(LLM)基础,包括分词、神经网络底层原理、RLHF 及强化学习。强调深入理解这些核心架构原理,相比仅仅会调用现成的 AI 工具,能为职业发展带来显著的竞争优势。
Andrej Karpathy 在 YouTube 免费发布了一堂计算机视觉讲座,涵盖图像描述、定位、分割和迁移学习,内容源于他在 Tesla 和 OpenAI 的生产实践经验。
一个全面且开源的 GitHub 仓库,提供结构化的学习路线图与精选资源,助力学习者从入门到精通掌握 AI、机器学习、深度学习及大语言模型。该资源面向学生与专业人士设计,内容涵盖基础概念、编程框架、职业发展路径以及前沿 AI 议题。
一段40分钟的讲解通过白板图完整介绍了Transformer架构,并演示了如何在Vim中使用C语言进行实际实现。
本文介绍了一种用于分级膝关节骨关节炎严重程度的自动化诊断系统,该系统使用通过 TensorFlow Lite 部署在边缘设备上的优化 ResNet-18 模型。它集成了使用 Gemini 2.0 Flash 的大型语言模型(LLM)接口,在提供结构化解释性发现的同时,保持了在资源受限环境下的离线能力。
本学术论文介绍了一种基于人工智能的分析框架,利用现有的监控系统基础设施,评估交通软性干预措施对城市十字路口车辆速度和安全性所产生的影响。
本文提出了 LMO-IGT,这是一类新的随机优化方法,它利用隐式梯度传输来加速收敛,同时保持每次迭代仅计算一次梯度的结构。文中引入了一个统一的理论框架,并展示了相较于 Muon 等现有基于 LMO 的优化器,该方法具有更优的性能。
本文将稀疏自编码器中的特征饥饿识别为一种几何不稳定性,并提出自适应弹性网络 SAE(AEN-SAE)来在不依赖启发式方法的情况下缓解该问题。
本文提出了一种基于神经进化的微调方法,以提高量化深度学习模型的精度。研究表明,仅使用最近邻舍入是次优的,而在 VGG 和 ResNet 等架构上对权重进行进化变异可获得更好的结果。
本文系统研究了不同训练范式下的不可学习示例,揭示了预训练权重会削弱现有方法的效果,并提出浅层语义伪装(SSC)方法,通过在语义有效子空间中生成扰动来维持不可学习性。
Goodfire AI宣布了一项新的研究议程,专注于神经几何,以提升对神经网络的理解、调试和控制。
本研究探讨了带有双向掩码的深度Transformer如何实现与显式思维链方法相媲美的隐式演绎推理。研究表明,算法对齐的模型能够在多种图拓扑结构和问题宽度上扩展推理能力。
本文介绍了 NVIDIA GPU 和 Morpheus 等 AI 模型如何帮助加州大学圣克鲁兹分校的天文学家处理詹姆斯·韦伯太空望远镜产生的海量数据集,从而加速早期宇宙星系的发现与分类。
CTNet 提出了一种新型神经网络架构,把计算过程重新定义为持久状态的演化,而非逐层重写,融合了可重入记忆、多尺度一致性和投影式输出。
Google 发布第八代 TPU 8t 与 TPU 8i,专为大规模预训练与推理设计,集成 SparseCore、原生 FP4,并支持 9,600 芯片级超节点,为世界模型与智能体 AI 提供算力。
微软研究院发布 Skala——一种用于 DFT 的深度学习交换关联泛函,在 GMTKN55 主流化学基准上达到 2.8 kcal/mol 精度,成本仅为半局域泛函水平,全面超越传统泛函。