标签
本文从理论上证明,在群组合任务上训练的两层神经网络可以学习谱表示,其中神经元收敛到不可约表示并实现旋转秩一对齐,为特征学习提供了表示论的解释。
DeepMDMD将深度学习与代数约束相结合,学习紧凑且动态一致的Koopman算子表示,并将乘积规则作为精确约束强制实施。该方法在高维混沌和流体动力学问题上优于几何方法,减少了谱污染并实现了稳定的长期预测。
本文提出能量门控注意力(EGA)和Morlet位置编码(MoPE),以解决Transformer注意力中缺失的归纳偏置:令牌显著性和尺度自适应局部性。在TinyShakespeare上的实验表明,两者结合时获得超加性收益,凸显了互补性。
本文提出DG-Hard,一种事后谱修复方法,仅使用预训练和微调检查点,即可恢复因微调而受损的能力,无需重新训练。该方法将Donoho-Gavish硬奇异值阈值应用于权重更新,去除噪声并恢复退化的性能。
谱调整(SpecTemp)提出了一种无需学习的密集段落检索嵌入压缩方法,该方法基于信噪比分析自适应地确定最优的谱缩放系数,性能优于PCA和白化等固定超参数方法。