标签
本文研究在交叉熵损失下,权重范数是直接控制神经网络中的grokking延迟,还是其效果通过对数几率尺度和softmax饱和来中介。实验表明,延迟几乎完全由有效对数几率尺度解释,权重范数的贡献微乎其微。
本文证明,当Transformer领悟模乘时,先前工作中观察到的密集傅里叶谱是使用加法傅里叶变换产生的伪影;使用乘法特征变换则揭示出稀疏表示,从而得出一个逆向工程的'离散对数时钟'算法,类似于模加的时钟算法。
该论文提出,深度神经网络中的grokking现象源于一阶L2相变中噪声驱动的亚稳态逃逸,证明了延迟泛化遵循Arrhenius标度,并再现了典型的grokking曲线。
本文证明权重范数因果性地控制神经网络中grokking的时间尺度,调和了相互矛盾的论述。通过干预实验,它表明grokking遵循指数延迟定律,且范数大小在不同架构中比学习率更主导grokking时间。
本文介绍了层次涌现框架(HEF),该框架解释了在物理和信息约束下,通过机制景观中的相变,神经网络和生物进化等多样系统如何收敛到相似的内部表示。该框架通过111个grokking实验进行了实证验证,这些实验确认了通用收敛,并识别出一个临界能量阈值。
本文提出了一种基于暴露的框架,用于研究LLM预训练过程中类似Grokking的延迟泛化现象,使用了BLiMP最小对立对和关键短语。作者观察到五种语法现象均出现延迟泛化,并分析了内部变化,如概念向量的可预测性和注意力头的集中。
本文介绍了对数对齐比(LAR),这是一种训练时度量,用于衡量参数-激活对齐度,并通过捕捉权重谱和激活谱的分散程度来预测泛化能力。在grokking和30亿参数语言模型上的实验表明,LAR能够跟踪从记忆到泛化的转变,并在无需留出数据的情况下标记过拟合。
本文提出了一种表征动力学的分岔理论,用于检测神经网络在训练过程中何时获得结构化表征。该理论利用对GMM探针的黑塞矩阵分析,得到的比值β/β_c作为一种无标签的相位坐标,能够预测可用结构的出现,并在训练早期预判稀疏自编码器中的特征可解释性。
本文研究了权重衰减如何作为控制参数,使在模算术上训练的Transformer在记忆与泛化之间发生转变,并引入了两种基于注意力激活的廉价在线诊断指标,用以追踪这些动态。
本文首次对AdamW优化器下的grokking延迟进行了定量预测,推导出封闭形式的定律,并在算法任务上以高精度进行了验证。
应用图谱分析(Fiedler值)和Scheffer临界减速指标来预测神经网络中的grokking,在损失函数变化前21,000步检测到它,在五个可重复实验中。
本文提出了一个统一的理论框架,用于描述深度学习中的相变(grokking、涌现能力)和非平衡化学中的相变,将两者描述为受两个梯度场控制的驱动信息系统。
本文提出了一种分布谱诊断方法,用于在测试准确率上升之前定位 Transformer 模型中的 Grokking 相变。该方法利用经验分布和汉克尔动态模态分解(Hankel DMD)创建监测信号,以区分发生 Grokking 和未发生 Grokking 的训练运行。
这项实证研究验证了关于两层神经网络在 Grokking 现象期间的特征排斥和谱锁定理论发现,展示了激活函数如何影响从记忆到泛化的过渡。