标签
本文实证测量了等变性理论预测的对称性与数据交换速率,发现错误群对称约束具有实际危害,测试时轨道平均的数据增强与等变架构相匹配,而理论上 |G| 倍的样本复杂度降低仅得到弱证实,且置信区间较宽。该研究明确为探索性,未预先注册。
本文发展了一个测度论框架,分析对比学习何时恢复有意义的潜在几何结构,引入了正对采样的'多样性条件'和一个支持修正的InfoNCE变体。实验表明,采样多样性与架构归纳偏置在对比表示学习中存在关键交互。
这项探索性研究通过受控的C_n对称任务,实证测量了等变性理论预测的对称性-数据交换率,发现错误群组约束反而有害,在测试时进行轨道平均的数据增强与等变模型完全匹配,且实证交换率大致与理论一致但统计上不具决定性。作者强调了该研究的探索性,并呼吁进行注册复制研究。
本文引入了“初始化记忆”的概念,研究深度网络中随机初始化偏差在训练后保留了多少,表明低学习率的SGD能保留初始化,而Adam系列优化器则消除它,并将其与遗忘动力学联系起来。
本文提出能量门控注意力(EGA)和Morlet位置编码(MoPE),以解决Transformer注意力中缺失的归纳偏置:令牌显著性和尺度自适应局部性。在TinyShakespeare上的实验表明,两者结合时获得超加性收益,凸显了互补性。
本文研究了临床数据时间序列预训练中归纳偏差的作用,提出了PathoFM——一种以编码器为中心的Transformer,在多变量步态窗口上进行了预训练。研究比较了不同的预训练目标,发现以动力学为中心的混合目标在分类和回归任务中实现了最均衡的迁移效果。
本文介绍了将图对齐拓扑作为接地检测的归纳偏置,使用图神经网络对参考信息与LLM输出之间的对齐结构进行建模。该方法在多个幻觉和问答数据集上取得了最先进的结果,性能优于GPT-4o。
本文研究了字符级Transformer模型如何泛化到日语过去时屈折中的不规则动词子类型。控制实验表明,包含不规则示例可以改善泛化,挑战了规则性简化学习的假设。