标签
本文实证测量了等变性理论预测的对称性与数据交换速率,发现错误群对称约束具有实际危害,测试时轨道平均的数据增强与等变架构相匹配,而理论上 |G| 倍的样本复杂度降低仅得到弱证实,且置信区间较宽。该研究明确为探索性,未预先注册。
这项探索性研究通过受控的C_n对称任务,实证测量了等变性理论预测的对称性-数据交换率,发现错误群组约束反而有害,在测试时进行轨道平均的数据增强与等变模型完全匹配,且实证交换率大致与理论一致但统计上不具决定性。作者强调了该研究的探索性,并呼吁进行注册复制研究。
本文研究了群等变架构在神经流体动力学替代模型中的作用,引入了AB-GATr模型。研究发现,当数据缺乏强对齐时,等变性是有益的,但在高度对齐的数据集上可能会降低性能。
引入了适用于 LLM 优化器设计的对称兼容原则,由此得到一个逐层优化器栈,为嵌入层、LM 头、SwiGLU MLP 和 MoE 路由器提供了有原则的更新,在多种架构上展现出优于 AdamW 的验证损失。
研究人员提出了对称兼容优化器,这些优化器尊重神经网络参数的等变性结构,相比 Adam 等传统方法提高了训练稳定性和性能。该方法在多种语言模型架构上得到验证,包括 Qwen3-0.6B、Gemma 3 1B 和 OLMoE-1B-7B。