[R] 测量对称性--数据交换速率
摘要
本文实证测量了等变性理论预测的对称性与数据交换速率,发现错误群对称约束具有实际危害,测试时轨道平均的数据增强与等变架构相匹配,而理论上 |G| 倍的样本复杂度降低仅得到弱证实,且置信区间较宽。该研究明确为探索性,未预先注册。
等变性将样本复杂度降低 |G| 倍的预测几乎出现在每篇几何深度学习论文中,但几乎没有一篇将其作为实际标度律进行测量。本文进行了测量。其方法论是趣味所在。朴素估计器将群阶与任务难度混为一谈(更大的群不仅带来更多约束,还引入了更难的对称结构),因此作者推导出一个*相对*交换速率,用以抵消共享难度,大致表明在受控的 C_n 对称任务中(n 为自由参数),等变模型相比普通基线需要少多少数据。他们还预先指定了一个失败分类体系:即在看到结果之前,哪些明确条件会被视为*反对*假设的证据。主要数值是 beta_diff ~ 1.28,与理论值 1.0 一致。但更持久的发现是**错误群控制**:使用错误循环对称性、相同轨道大小和相同计算预算构建的模型,实际上比无约束更*差*。这不是噪声。联合成对置信区间 [+0.79, +3.26] 在他们运行的每个估计器中都稳健地排除了零。错位不仅无益,而且有害。第 4.3 节还隐藏了一个简洁的数学结果:数据增强 + 测试时轨道平均对于输出池化架构恰好是等变的,可证明并验证为比特级相同的训练曲线。架构与增强之间的差距归结为是否在测试时应用轨道平均,而非任何结构性问题。这一点似乎未被充分认识。这篇论文对其未能确定的方面异常透明:相对速率估计器是事后采用的,两级自助法置信区间(种子 × 群大小)包含零,以及在 sqrt(2) 间隔网格上的更细 N 复制结果不具决定性。他们按稳健性明确排序了其发现。错误群结果是他们愿意断言的结果。交换速率在方向上是可能的。
查看缓存全文
缓存时间: 2026/06/05 02:23
# 测量对称性与数据交换率:在精确已知对称性下的受控测量
来源:https://arxiv.org/html/2606.01090
###### 摘要
等变性理论预测,架构对称性先验会将样本复杂度降低\|G\|倍;这一结论被广泛引用,但很少作为缩放律在控制条件下进行测量,以将先验与其混杂因素分离。在一个受控的 \(C_n\)-对称任务上,我们报告了三个发现。首先,一个轨道大小相同但使用了**错误群**的控制组,其表现**差于**无约束条件(联合成对CI \[+0.79, +3.26\] 排除了零,对各类估计量均稳健);错位的约束不仅无益,反而有害。其次,配备**测试时**轨道平均的数据增强基线,与等变性模型的每轮验证曲线在匹配单元上逐比特相同——因此架构与增强之间的差距取决于**非对称的**测试时计算,而非无条件存在。第三,相对交换率 \(\beta_{\mathrm{diff}} = 1.28\) 在符号和数量级上与理论值 1.0 一致(单层CI \[+0.92, +2.05\]);更保守的两层bootstrap(种子数×群大小)将其展宽为 \[-0.63, +1.72\],**包含零**,而在 \(\sqrt{2}\) 间距网格上的更精细N复制结果不具决定性(点估计为 -0.82)。方法论贡献——用于消除共享难度混杂因素的相对速率估计器、错误群控制以及预先指定的失败分类法——可迁移至任何强度可参数化的归纳偏置。
*诚实界定*:主要估计量 \(\beta_{\mathrm{diff}}\) 是在初始分析揭示正斜率可辨识性问题后事后采用的;该设计从未经过外部预注册;标题数字依赖于在粗粒度N网格上对七个群大小的OLS斜率。这是一项探索性研究,而非确证性测量;错误群结果是最清晰的发现,也是我们报告时最有信心的结论。在新种子上的注册复制是未来工作。
*关键词*:等变性 · 样本复杂度 · 归纳偏置 · 数据效率 · 交换率 · 预先指定的控制
## 1. 引言
一个旨在尊重对称性的模型无需从数据中学习该对称性。如果任务的标签在作用于输入的有限群G下具有不变性,那么通过构造具有不变性的架构[7],每个\|G\|-元素轨道被折叠为一个有效样本,关于不变性下学习的分析预测样本复杂度大约降低\|G\|倍[16, 5]。等变性已在分子[3, 1]、点云[19]、集合与图[22, 8]等领域带来了样本效率提升,而几何深度学习项目已将这些增益围绕作用于域的群进行了组织[6]。在许多最需要这些增益的场景中——小型科学语料库、昂贵的标签、低数据部署——数据是约束条件,这正是\|G\|倍的降低会起决定性作用的地方。
然而,\|G\|的预测被引用次数远多于实际测量次数。实证研究通常固定样本量并报告准确率差距,或固定准确率并在单个操作点上报告效率比;它们很少追溯**样本复杂度的缩放律**——达到目标准确率所需样本量如何随\|G\|变化——也很少包含能够将结构先验与其伴随的混杂因素分离开的控制条件。权重共享降低了有效容量;轨道池化可视为隐式数据增强;任何架构约束都会起到正则化作用。不分离这些因素的测量,无法区分“正确的对称性有帮助”和“某种此强度的约束有帮助”。因此,我们解决的差距是方法论层面的:如何将“结构有帮助”转化为一个可校准、可证伪的交换率。
我们构建了一个任务,其中对称群完全已知且其阶数n是一个自由旋钮;在收集数据前固定五个模型族——正确的等变性模型和四个控制条件,每个都旨在排除一种特定的替代解释——并预先指定统计分析和失败分类法,事先说明什么才算作**反对**假设的证据。然后我们测量交换率。
我们的核心主张,诚实地陈述:*在这个受控任务上,采用事后选择的相对速率估计量,等变性模型的样本复杂度斜率低于无约束模型的差值,在符号和数量级上与理论上的每比特一比特预测一致——\(\beta_{\mathrm{diff}} = 1.28\)(单层百分位CI [0.92, 2.05];两层种子×群大小CI [-0.63, +1.72],包含零)——而轨道大小相同的错误群控制是有害而非有益的(联合成对CI排除零)。* 标题数字并非精确测量;定性方向在我们运行的所有检验中均稳健。
#### 贡献。
1. **无混杂因素的测量方法论。** 我们引入一个**相对**交换率估计器,它消除了共享的任务难度缩放(否则会使朴素预测不可检验),同时结合了联合成对bootstrap和预先指定的失败分类法(第3节)。该方法论可迁移至任何强度可参数化的归纳偏置。
2. **估计的速率。** 在 \(C_n\)-对称任务上,点估计为 \(\beta_{\mathrm{diff}} = 1.28\)(两层种子×群大小CI [-0.63, +1.72] 包含零;单层百分位CI [+0.92, +2.05] 排除零);通过30%标签损坏的 \(\varepsilon\) 扫描,该速率保持其中心值的 ≥88%(第4节)。我们贡献的是定性方向,而非精确数值。
3. **分离对齐与约束的控制条件。** 一个轨道大小相同的错误群控制**差于**无约束条件,排除了泛化约束的解释。仅训练时轨道增强(测试时单输入前向传播)无法达到等变性模型成功时的目标准确率;CPU复制表明,**同一增强模型在测试时采用轨道平均后,与等变性模型完全匹配**(第4.3节和附录E)。因此,架构与增强之间的差距特指训练时仅增强在非对称测试时计算条件下的表现,而非泛化的增强问题。
4. **完全可复现的成果。** 整个实验在一块GPU上大约运行90分钟;所有代码、设计文档、配置哈希以及每次运行的记录均已发布。未能通过校准的预先指定测量结果作为阴性结果报告(附录C),而非省略。
我们对结果的性质同样明确。我们报告的是一个**操作性**交换率——在指定目标准确率和缩放模型下,以比特等效(\(\log_2\))单位给出的经验估计——而非通用的信息论等价关系;其值是在一种设置下的测量,而非我们声称在其他地方也成立的常数。节省的是数据而非算力(总训练FLOPs大致固定);任务为二维合成任务,具有精确对称性;本研究为探索性——相对速率估计量是在初始分析后采用的,因此确证性权重依赖于注册复制(此为未来工作)。
## 2. 相关工作
#### 归纳偏置与样本复杂度(广义概括)。
先验结构可降低样本复杂度的宽泛主张至少可追溯至Baxter [4] 的归纳偏置学习形式模型,其中偏置被视为一种假设空间限制,可改善偏差-方差权衡。Wolpert [21] 给出了互补的负面结果:若无与任务对齐的先验,任何学习算法都无法均匀地占优。群等变性的 \(\|G\|\) 倍主张是该一般原则的一个具体量化实例。
#### 等变架构与 \(\|G\|\) 倍主张。
群等变卷积网络形式化了群上的权重共享,并阐述了等变性可提高样本效率的预期[7];后续工作将构造推广到紧群[14]和欧氏群的可转向表示[20],更广泛的项目通过作用于域的对称性来框架化学习[6]。我们的等变模型是该谱系中的标准正则表示网络;我们不声称架构新颖性,只报告其样本复杂度缩放的受控测量。
#### 不变性下的样本复杂度理论。
\(\|G\|\) 倍直觉在不变核与随机特征的分析中得到了精确化[16, 5],这些分析量化了不变性如何缩小有效假设空间。这些结果预测了我们所测缩放的**形式**;我们提供了受控的经验曲线。我们注意到一个重要警示:这些分析推导自不变核和随机特征模型,而非由Adam训练的有限宽度ReLU MLP;定量的 \(\|G\|\) 倍预测是否能迁移到我们的模型类是一个经验问题,而非分析事实。因此,我们将测量结果与理论预测进行基准比较,而不声称两个设置之间存在形式上的桥梁,我们的符合性主张仅限于符号和数量级,而非对一个技术上适用于不同模型类的定理的精确数值确认。
#### 增强 vs 架构。
数据增强能否替代内置不变性是一个长期问题。Elesedy 和 Zaidi [11] 给出了一个将等变模型与其增强对应物分离的定理:前者享有严格的泛化优势,因此两种机制并非等价。我们的增强结果是经验性的补充,依赖于特定的评估设计:实验中的增强模型在测试时使用单输入前向传播,而等变模型通过其池化层有效地对轨道进行平均,因此比较是在**具有推理时轨道池化的架构等变**与**仅训练时增强**之间进行的;在此比较下,增强不仅效率损失,而且完全无法在等变模型成功的区间达到目标准确率。测试时平均的增强变体是自然的反事实;我们在CPU复制中运行了它,发现它在每个n处都与等变模型完全匹配(第4.3节和附录E)。因此,架构与增强之间的差距取决于非对称的测试时计算,而非无条件存在。
#### 方法论。
我们的推断依赖于非参数bootstrap,包括成对差异变体[10];我们坚持在解释结果之前指定分析和失败模式,这遵循了如下论点:在没有注册的领域中,未公开的分析灵活性会悄然膨胀看似显著的发现[13]。
#### 与前人工作的差距,具体说明。
多数先前的实证工作将等变模型与单个无约束基线进行比较,并在固定样本量下报告准确率差距。我们转而追踪样本复杂度随 \(\|G\|\) 的斜率,加入了轨道大小匹配的错误群控制、容量和正则化匹配的基线,以及一个去除任务难度混杂因素的相对速率估计器。为了使差距具体化:Cohen 和 Welling [7] 报告了旋转等变CNN在固定训练集大小下对旋转MNIST和CIFAR的准确率提升,但未追踪随 \(\|G\|\) 的样本复杂度缩放律,也未包含轨道大小匹配的错位对称性控制。Weiler 和 Cesa [20] 在 \(E(2)\) 子群格上运行了系统性比较,并报告了数据效率改进,但同样是在固定操作点而非拟合斜率,并且没有错位对称性基线。Batzner 等人[3] 展示了 \(E(3)\) 等变原子间势在量子化学数据集上显著的数据效率,并报告了多个训练规模下的学习曲线,但 \(\|G\|\) 旋钮本身就是架构选择,而非连续参数化的群阶数,且比较对象是非等变基线而非相同轨道的错位控制。这些工作均未将缩放指数与任务难度混杂因素分离,也没有通过匹配轨道的错误群控制来区分“对齐”与“约束”。据我们所知,这种组合——具有对抗性控制和预先指定分类法的拟合缩放律——尚未被报告过。
## 3. 方法论
### 3.1. 任务
输入 \(x \in \mathbb{R}^2\) 均匀采样自半径为 \(r \in [0.1, 1.0]\)、角度 \(\theta \in [0, 2\pi)\) 的圆环。干净标签为
\[
y_{\mathrm{clean}}(x) = \mathbf{1}\!\left[\cos(n\,\theta(x)) > 0\right], \tag{1}
\]
一个交替的角向“花瓣”模式。干净标签在任何 \(2\pi/n\) 的整数倍旋转下不变,因此其对称群为循环群 \(C_n\)。标签实际上也是反射不变的,因此完整对称群为二面体群 \(D_n\);我们的等变模型仅利用了旋转子群 \(C_n\),这使任何测量到的优势都是 \(D_n\)-等变模型所能获得的保守下界(第6节)。对每个数据划分都施加固定的5%伯努利标签噪声率。群阶数 \(n \in \{1,2,3,4,6,8,12\}\) 是一个自由整数旋钮(图1)。
(图1说明:带标题的左右两图,分别为(a)不同群阶数下的 \(C_n\)-花瓣任务;(b)正确 vs 错位轨道。图注:任务与对照图略)
### 3.2. 模型
为所有模型使用相同的骨干网络:一个具有256个隐藏单元、ReLU激活的单隐藏层MLP。该骨干网络不包含任何对称性可交换结构,因此我们可将其作为无约束基线,并与插入 \(C_n\)-等变池化层后的相同骨干网络进行比较——通过将隐藏表示与输入旋转的轨道平均结合。
(后续内容因输入截断未显示完全,翻译将基于已提供的完整文本进行)相似文章
测量对称性——数据交换率
这项探索性研究通过受控的C_n对称任务,实证测量了等变性理论预测的对称性-数据交换率,发现错误群组约束反而有害,在测试时进行轨道平均的数据增强与等变模型完全匹配,且实证交换率大致与理论一致但统计上不具决定性。作者强调了该研究的探索性,并呼吁进行注册复制研究。
群代数张量:可证明最优的等变学习与物理对称性发现
本文介绍了 ⋆_G 张量代数,该框架将等变性视为内在的代数性质而非架构约束,提供了可证明最优的保对称张量逼近、用于组合多种对称性的克罗内克分解,以及 Lean 4 形式化验证。在 QM9 分子几何上的实验展示了数据驱动的物理对称性选择规则发现。
自然场景中的对称性:等变性在神经流体替代模型中的作用
本文研究了群等变架构在神经流体动力学替代模型中的作用,引入了AB-GATr模型。研究发现,当数据缺乏强对齐时,等变性是有益的,但在高度对齐的数据集上可能会降低性能。
MoE专业化中的几何不对称性:功能去相关与表示重叠
本文提出一个Jacobian-PCA-Grassmann框架,用于分析混合专家(MoE)Transformer中专家专业化的几何结构。研究发现,专家表现出强烈的功能去相关,而其表示存在重叠,并且路由稀疏性显著影响这一几何结构。
基准审计中的可靠性差距:分布偏移与规模作为污染检测的失效模式
本文识别出分布偏移和规模约束是LLM基准审计中统计污染检测方法的关键失效模式。对27个模型评估三种范式的结果显示,在335次评估中仅有199次正确结果,表明存在系统性可靠性差距,使得这些方法无法替代透明数据溯源。