标签
本文引入了“初始化记忆”的概念,研究深度网络中随机初始化偏差在训练后保留了多少,表明低学习率的SGD能保留初始化,而Adam系列优化器则消除它,并将其与遗忘动力学联系起来。
本文提出能量门控注意力(EGA)和Morlet位置编码(MoPE),以解决Transformer注意力中缺失的归纳偏置:令牌显著性和尺度自适应局部性。在TinyShakespeare上的实验表明,两者结合时获得超加性收益,凸显了互补性。
本文研究了临床数据时间序列预训练中归纳偏差的作用,提出了PathoFM——一种以编码器为中心的Transformer,在多变量步态窗口上进行了预训练。研究比较了不同的预训练目标,发现以动力学为中心的混合目标在分类和回归任务中实现了最均衡的迁移效果。
本文介绍了将图对齐拓扑作为接地检测的归纳偏置,使用图神经网络对参考信息与LLM输出之间的对齐结构进行建模。该方法在多个幻觉和问答数据集上取得了最先进的结果,性能优于GPT-4o。
本文研究了字符级Transformer模型如何泛化到日语过去时屈折中的不规则动词子类型。控制实验表明,包含不规则示例可以改善泛化,挑战了规则性简化学习的假设。