标签
本文证明权重范数因果性地控制神经网络中grokking的时间尺度,调和了相互矛盾的论述。通过干预实验,它表明grokking遵循指数延迟定律,且范数大小在不同架构中比学习率更主导grokking时间。
Channel AI创始人Luke Orthwine提出一种新的软件开发方法论:将编程思维从传统的象棋式单线程线性思考,转向实时战略游戏(RTS)式的高并发、宏观调度和饱和攻击,以实现AI Agent时代的高效率开发。
这篇文章探讨了物理学与深度学习之间的深层联系,分析了Scaling Law、涌现等现象与物理学中临界标度律、相变等概念的同构性,并梳理了物理方法论在AI中的应用现状与前景。
StreamMA 提出了一种用于多智能体推理的流式通信范式,通过管道化中间结果来降低延迟,并利用更可靠的早期步骤提升效果,在多个基准测试中优于基线方法,同时揭示了步骤级别的缩放定律。
华为推出Tau缩放定律,这是一种绕过美国制裁的芯片架构变通方案,旨在到2031年实现相当于1.4纳米工艺的晶体管密度,标志着中国半导体自给自足迈出重要一步,并改变了与华盛顿的技术竞争格局。
讨论AI用到的数学主要是19世纪之前的线性代数、微积分等,但涌现现象如Scaling Law、涌现能力、双下降、情境学习和表示几何缺乏数学解释,类比1900年物理学的乌云,认为可能推动21世纪数学发展。
姚顺宇在访谈中提出反主流观点,认为预训练并未撞墙、Scaling Law也未到头,声称多数喊撞墙的人是因为代码中有bug。
田渊栋在Meta裁员后宣布新方向,融资6.5亿美元成立neolab Recursive_SI,估值46.5亿美元,并在采访中分享了关于AI趋势、LLM局限、强化学习和研究自由的见解。