neural-networks

#neural-networks

搭配引导：关于人类与神经网络学习主谓一致的一种假说

arXiv cs.CL ↗ · 2026-05-21 缓存

本文提出搭配引导机制，即统计词语共现线索可辅助英语主谓一致的习得，并通过神经网络模拟和对儿童导向言语的分析予以支持。

0 人收藏 0 人点赞

#neural-networks

噪声标签下神经网络鲁棒训练的损失函数对称化

arXiv cs.LG ↗ · 2026-05-21 缓存

本文研究了标签噪声下鲁棒训练的损失函数对称化，提出了SGCE和alpha-MAE两种损失函数，它们在多类无铰链损失和平均绝对误差之间插值，具有理论保证和有竞争力的实证表现。

0 人收藏 0 人点赞

#neural-networks

通过分层高斯滤波器的闭式预测编码

arXiv cs.LG ↗ · 2026-05-21 缓存

本文介绍了通过分层高斯滤波器实现的闭式预测编码，该编码恢复了精度加权的预测误差，从而在没有全局误差信号的情况下实现更快、更高效的训练，并在某些任务上优于反向传播。

0 人收藏 0 人点赞

#neural-networks

用于Forward-Forward学习的自适应多尺度优度聚合

arXiv cs.LG ↗ · 2026-05-20

提出了自适应多尺度优度聚合（AMSGA），这是Forward-Forward算法的一个扩展，通过多尺度优度聚合、自适应难负样本挖掘和层相关阈值，提高了稳定性、鲁棒性和泛化能力，在MNIST和Fashion-MNIST上实现了适度的准确率提升。

0 人收藏 0 人点赞

#neural-networks

面向Transformer模型压缩的鲁棒B样条解耦方法

arXiv cs.LG ↗ · 2026-05-20 缓存

本文介绍了一种基于B样条的Transformer模型压缩解耦框架，并提出了一种鲁棒交替最小二乘算法（R-CMTF-BSD），该算法在Vision Transformer和Swin Transformer架构上实现了显著的参数减少，同时保持了具有竞争力的准确率。

0 人收藏 0 人点赞

#neural-networks

@SabrinaHalper: .@dwarkesh_sp 与 @ericjang11 的节目非常精彩。Eric 有一种罕见的才能，能把复杂的概念讲得简单易懂，…

X AI KOLs Timeline ↗ · 2026-05-19 缓存

Sabrina Halper 推荐 Dwarkesh Patel 与 Eric Jang 的播客，其中讨论了深度学习进展更多是受计算驱动，而非生物启发。

0 人收藏 0 人点赞

#neural-networks

图谱分析（Fiedler值与Scheffer CSD指标）在损失函数变化前21,000步预测grokking——五个可重复实验 [R]

Reddit r/MachineLearning ↗ · 2026-05-19

应用图谱分析（Fiedler值）和Scheffer临界减速指标来预测神经网络中的grokking，在损失函数变化前21,000步检测到它，在五个可重复实验中。

0 人收藏 0 人点赞

#neural-networks

SignMuon: 通信高效的分布式Muon优化

arXiv cs.LG ↗ · 2026-05-19 缓存

SignMuon是一种1位、感知矩阵的分布式训练优化器，它结合了signSGD的多数投票符号聚合与Muon的极坐标步骤框架，在float32基础上实现32倍带宽缩减，同时在CIFAR-10/ResNet-50和nanoGPT等基准测试上保持强大的收敛性和性能。

0 人收藏 0 人点赞

#neural-networks

从模仿到交互：使用浅层强化学习掌握Schnapsen游戏

arXiv cs.AI ↗ · 2026-05-19 缓存

本文研究浅层神经网络代理是否能够通过强化学习掌握纸牌游戏Schnapsen，超越监督模仿基线，并在一项与基于强搜索的对手的对比中取得有竞争力的结果。

0 人收藏 0 人点赞

#neural-networks

E-PMQ：专家引导的合并后量化与合并权重锚定

arXiv cs.CL ↗ · 2026-05-19 缓存

本文介绍了E-PMQ，一种专家引导的合并后量化框架，解决了合并和量化带来的联合偏差，在CLIP-ViT和FLAN-T5等多任务合并模型上取得了显著的精度提升。

0 人收藏 0 人点赞

#neural-networks

NeuroMAS：将多智能体系统视为具有联合强化学习的神经网络

arXiv cs.AI ↗ · 2026-05-19 缓存

NeuroMAS将多智能体语言系统视为可训练的类神经网络架构，以LLM代理作为节点，利用强化学习来学习通信和专业化。实验表明，其性能得到提升，并且从较小的系统逐步扩展比从头训练大型系统效果更好。

0 人收藏 0 人点赞

#neural-networks

Birth of AI/Steve

Reddit r/ArtificialInteligence ↗ · 2026-05-18 缓存

史蒂文·马斯卡尔博士分享了他从1988年神经网络研究到构建AI史蒂夫系统、以及开发纪念亲友和朋友应用、食物健康应用的个人故事，强调了多巴胺驱动的好奇心和超级个体时代的来临。

0 人收藏 0 人点赞

#neural-networks

别拦我：基于耗散黎曼力学的损失最小值采样

arXiv cs.LG ↗ · 2026-05-18 缓存

本文介绍了DiMS，一种动态系统采样器，能保证从神经网络最小损失解的子流形中精确采样，从而在贝叶斯推断中实现更好的不确定性量化。

0 人收藏 0 人点赞

#neural-networks

论结构可塑性中增长的稳定性

arXiv cs.LG ↗ · 2026-05-18 缓存

本文研究神经网络结构可塑性中剪枝与增长之间的不对称性，表明新生单元比现有单元受到更弱的梯度信号，并提出改进整合的干预措施。

0 人收藏 0 人点赞

#neural-networks

从权重扰动到特征归因：解释全连接神经网络

arXiv cs.LG ↗ · 2026-05-18 缓存

提出一种基于权重扰动的特征归因方法（XWP和XWPc），用于全连接神经网络，在标准基线指标上取得了有竞争力的性能。

0 人收藏 0 人点赞

#neural-networks

优化器设计的对称兼容原则：嵌入层、语言模型头、SwiGLU MLP 和 MoE 路由器

Hugging Face Daily Papers ↗ · 2026-05-18 缓存

研究人员提出了对称兼容优化器，这些优化器尊重神经网络参数的等变性结构，相比 Adam 等传统方法提高了训练稳定性和性能。该方法在多种语言模型架构上得到验证，包括 Qwen3-0.6B、Gemma 3 1B 和 OLMoE-1B-7B。

0 人收藏 0 人点赞

#neural-networks

Bug or Feature^2：权重漂移、激活稀疏性与尖峰

Hugging Face Daily Papers ↗ · 2026-05-17 缓存

本文正式证明了使用非对称激活函数（如ReLU、GELU或SiLU）训练神经网络会导致权重向负方向漂移，进而使激活稀疏性高达90%。同时，研究表明平方激活函数（如ReLU²）能提升性能，但会导致激活尖峰，这一问题可通过裁剪解决，其中GELU²达到了最低验证损失。

0 人收藏 0 人点赞

#neural-networks

@0xCodez: Snapchat 以 1.5 亿美元收购了 Looksery——一家专注于深度学习计算机视觉的初创公司。这个时长 1 小时的 MIT 讲座"Build…

X AI KOLs Timeline ↗ · 2026-05-16 缓存

Snapchat 以 1.5 亿美元收购了 Looksery，一家深度学习计算机视觉初创公司。一个免费的 MIT 讲座从头教你构建神经网络。

0 人收藏 0 人点赞

#neural-networks

太棒了。说真的，人们对这个平台很苛刻，但如果你小心选择关注的人，它就是一个持续的……

X AI KOLs Timeline ↗ · 2026-05-16 缓存

Eric Jang 宣布他一直在从头实现 AlphaGo，这个 2016 年的 AI 突破曾激励他进入深度学习领域。

0 人收藏 0 人点赞

#neural-networks

@Propriocetive: 一周前，一个融资超过5000万美元的可解释性实验室发表了我一直默默在自己的公寓里构建的研究主题……

X AI KOLs Following ↗ · 2026-05-15

一位独立研究人员讲述了发现一个融资超过5000万美元的实验室关于流形引导的论文与他已申请专利并发表的关于通用行为流形的工作相趋同，强调了独立科学趋同的重要性。

0 人收藏 0 人点赞

neural-networks

提交意见反馈