标签
本文提出搭配引导机制,即统计词语共现线索可辅助英语主谓一致的习得,并通过神经网络模拟和对儿童导向言语的分析予以支持。
本文研究了标签噪声下鲁棒训练的损失函数对称化,提出了SGCE和alpha-MAE两种损失函数,它们在多类无铰链损失和平均绝对误差之间插值,具有理论保证和有竞争力的实证表现。
本文介绍了通过分层高斯滤波器实现的闭式预测编码,该编码恢复了精度加权的预测误差,从而在没有全局误差信号的情况下实现更快、更高效的训练,并在某些任务上优于反向传播。
提出了自适应多尺度优度聚合(AMSGA),这是Forward-Forward算法的一个扩展,通过多尺度优度聚合、自适应难负样本挖掘和层相关阈值,提高了稳定性、鲁棒性和泛化能力,在MNIST和Fashion-MNIST上实现了适度的准确率提升。
本文介绍了一种基于B样条的Transformer模型压缩解耦框架,并提出了一种鲁棒交替最小二乘算法(R-CMTF-BSD),该算法在Vision Transformer和Swin Transformer架构上实现了显著的参数减少,同时保持了具有竞争力的准确率。
Sabrina Halper 推荐 Dwarkesh Patel 与 Eric Jang 的播客,其中讨论了深度学习进展更多是受计算驱动,而非生物启发。
应用图谱分析(Fiedler值)和Scheffer临界减速指标来预测神经网络中的grokking,在损失函数变化前21,000步检测到它,在五个可重复实验中。
SignMuon是一种1位、感知矩阵的分布式训练优化器,它结合了signSGD的多数投票符号聚合与Muon的极坐标步骤框架,在float32基础上实现32倍带宽缩减,同时在CIFAR-10/ResNet-50和nanoGPT等基准测试上保持强大的收敛性和性能。
本文研究浅层神经网络代理是否能够通过强化学习掌握纸牌游戏Schnapsen,超越监督模仿基线,并在一项与基于强搜索的对手的对比中取得有竞争力的结果。
本文介绍了E-PMQ,一种专家引导的合并后量化框架,解决了合并和量化带来的联合偏差,在CLIP-ViT和FLAN-T5等多任务合并模型上取得了显著的精度提升。
NeuroMAS将多智能体语言系统视为可训练的类神经网络架构,以LLM代理作为节点,利用强化学习来学习通信和专业化。实验表明,其性能得到提升,并且从较小的系统逐步扩展比从头训练大型系统效果更好。
史蒂文·马斯卡尔博士分享了他从1988年神经网络研究到构建AI史蒂夫系统、以及开发纪念亲友和朋友应用、食物健康应用的个人故事,强调了多巴胺驱动的好奇心和超级个体时代的来临。
本文介绍了DiMS,一种动态系统采样器,能保证从神经网络最小损失解的子流形中精确采样,从而在贝叶斯推断中实现更好的不确定性量化。
本文研究神经网络结构可塑性中剪枝与增长之间的不对称性,表明新生单元比现有单元受到更弱的梯度信号,并提出改进整合的干预措施。
提出一种基于权重扰动的特征归因方法(XWP和XWPc),用于全连接神经网络,在标准基线指标上取得了有竞争力的性能。
研究人员提出了对称兼容优化器,这些优化器尊重神经网络参数的等变性结构,相比 Adam 等传统方法提高了训练稳定性和性能。该方法在多种语言模型架构上得到验证,包括 Qwen3-0.6B、Gemma 3 1B 和 OLMoE-1B-7B。
本文正式证明了使用非对称激活函数(如ReLU、GELU或SiLU)训练神经网络会导致权重向负方向漂移,进而使激活稀疏性高达90%。同时,研究表明平方激活函数(如ReLU²)能提升性能,但会导致激活尖峰,这一问题可通过裁剪解决,其中GELU²达到了最低验证损失。
Snapchat 以 1.5 亿美元收购了 Looksery,一家深度学习计算机视觉初创公司。一个免费的 MIT 讲座从头教你构建神经网络。
Eric Jang 宣布他一直在从头实现 AlphaGo,这个 2016 年的 AI 突破曾激励他进入深度学习领域。
一位独立研究人员讲述了发现一个融资超过5000万美元的实验室关于流形引导的论文与他已申请专利并发表的关于通用行为流形的工作相趋同,强调了独立科学趋同的重要性。