群代数张量:可证明最优的等变学习与物理对称性发现

arXiv cs.LG 论文

摘要

本文介绍了 ⋆_G 张量代数,该框架将等变性视为内在的代数性质而非架构约束,提供了可证明最优的保对称张量逼近、用于组合多种对称性的克罗内克分解,以及 Lean 4 形式化验证。在 QM9 分子几何上的实验展示了数据驱动的物理对称性选择规则发现。

arXiv:2605.20440v1 公告类型:新 摘要:我们引入了 $\star_G$ 张量代数,其中任意有限群 $G$ 定义了乘法规则,使等变性成为内在代数性质而非架构约束。该框架基于三个机器验证的理论支柱:(i) $\star_G$-SVD 的 Eckart-Young 最优性保证——这是首个保对称张量逼近的精确且多项式时间的结果;(ii) 克罗内克分解,通过将 $F_G$ 替换为 $F_{G_1} \otimes F_{G_2}$ 来组合多种对称性,无需重新设计架构;(iii) 600 行的 Lean~4 形式化验证 $\star_G$ 代数。该框架提供了等变神经网络 (ENN) 结构上无法实现的能力:每个预测的闭式不可约表示分解,以及数据驱动发现最适合数据集的对称群。作为一项重要的实证演示,在 QM9 分子几何上对 SO(3) 的手性八面体子群进行分解,仅从数据中恢复出角动量的 Wigner-Eckart 选择规则,无需任何量子力学输入:标量性质由 A$_1$ 主导,偶极分量由 T$_1$ 主导,各向同性极化率对 $l\!=\!1$ 独特地不敏感,符合二阶迹分解 $l\!=\!0 \oplus l\!=\!2$ 的要求,T$_1$/A$_1$ 预测能力比将矢量可观测量与标量可观测量区分开五倍。在完整 QM9 (130,831 个分子) 上,$\star_G$-SVD 与岭回归提供了闭式预测,参数比参数匹配的 MLP 少约 50–90 倍。因此,代数等变性是对架构等变性的补充,而非更快更好更便宜的替代品:它是一种不同的数学能力——可证明最优的保对称压缩、每个不可约表示的可解释性以及数据驱动的物理发现。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:26

# 群代数张量:可证明最优的等变学习与物理对称性发现 来源:https://arxiv.org/html/2605.20440 Shashanka UbaruIBM ResearchDongsung HuhIndependentVasileios KalantzisIBM ResearchKenneth L\. ClarksonIBM ResearchMisha KilmerTufts UniversityHaim AvronTel\-Aviv UniversityLior HoreshIBM Research ###### 摘要 我们引入 *Ġ 张量代数,其中任意有限群 \(G\) 定义乘法规则,使得等变性成为内在的代数属性而非架构约束。该框架建立在三个经机器验证的理论支柱之上:(i) 关于 *Ġ-SVD 的 Eckart–Young 最优性保证:这是首个针对保持对称性的张量逼近的最优性结果,精确且多项式时间复杂度(而 Tucker 仅具有 \(\sqrt{d}\)-拟最优性,CP 是 NP 难的,张量列没有全局最优性);(ii) 一个 Kronecker 分解,通过将 \(F_G\) 替换为 \(F_{G_1} \otimes F_{G_2}\) 来组合多个对称性,无需重新设计架构;以及 (iii) 一个 600 行的 Lean 4 形式化证明,关于 *Ġ 代数,零个未解决的证明义务。该框架提供了等变神经网络 (ENNs) 在结构上无法实现的能力:对每个预测进行封闭形式的每个不可约表示分解,以及数据驱动的发现最适合数据集的对称群。作为一个非平凡的实证演示,在 SO(3) 的手性八面体子群上分解 QM9 分子几何,仅从数据中恢复了角动量的 Wigner–Eckart 选择定则,无需任何量子力学输入:标量性质由 A1 主导,偶极子分量由 T1 主导,各向同性极化率对 \(l=1\) 独特地不敏感,而秩-2-迹分解 \(l=0 \oplus l=2\) 是必需的,T1/A1 预测能力比将矢量可观测量与标量可观测量区分了五倍。在完整的 QM9(130,831 个分子)上,*Ġ-SVD 结合岭回归以比参数匹配的 MLP 少约 50–90 倍的参数提供了封闭形式的预测,并在参数高效区域中具有竞争力的精度;一个同分异构体内部审计显示,较大模型在聚合 \(R^2\) 上的表观优势主要是一种大小预测效应,一旦控制化学因素后即消失。因此,代数等变不是作为更快、更好、更便宜的替代方案,而是作为一种不同的数学提供物来补充架构等变:可证明最优的保持对称性的压缩、机器验证的等变性、每个不可约表示的可解释性以及数据驱动的物理发现。

## 1 引言

科学与工程中遇到的许多数据本质上是多维的:分子构型编码三维原子位置,量子态存在于指数级大的希尔伯特空间中,传感器阵列跨空间和时间域采样信号。传统的机器学习方法通常将这些数据向量化,将其自然的张量结构压缩成扁平的特征向量 (Kolda and Bader, 2009 (https://arxiv.org/html/2605.20440#bib.bib1); Sidiropoulos et al., 2017 (https://arxiv.org/html/2605.20440#bib.bib2))。这类似于将折纸鹤展开成一张平纸:操作上信息无损,但赋予物体意义的几何结构被破坏了。所有后续处理必须隐式地、以巨大的计算代价恢复一开始就被丢弃的结构。

对称性加剧了这个问题。一个分子存在于三维空间中:它可以被旋转而不改变其性质(旋转对称性),其相同的原子可以按任意顺序索引而不改变分子本身(置换对称性)。这些对称性共存并相互作用 (Noether, 1918 (https://arxiv.org/html/2605.20440#bib.bib3); Bronstein et al., 2021 (https://arxiv.org/html/2605.20440#bib.bib4)),然而向量化将它们视为数据的附带特征,而非根本的结构约束。

纳入对称性的主导范式是通过等变神经网络 (ENNs) (Cohen and Welling, 2016 (https://arxiv.org/html/2605.20440#bib.bib5); Thomas et al., 2018 (https://arxiv.org/html/2605.20440#bib.bib6); Fuchs et al., 2020 (https://arxiv.org/html/2605.20440#bib.bib7); Batzner et al., 2022 (https://arxiv.org/html/2605.20440#bib.bib8)),在分子性质预测 (Schütt et al., 2017 (https://arxiv.org/html/2605.20440#bib.bib9)) 和蛋白质结构预测 (Jumper et al., 2021 (https://arxiv.org/html/2605.20440#bib.bib10)) 方面取得了显著成功。ENNs 通过架构处理对称性:为了尊重旋转,设计旋转等变层;为了尊重置换,设计置换等变层。但是当多个对称性共存时(在几乎所有物理系统中都是如此),架构方法面临组合爆炸的困境。必须为每种新的对称性组合从头重新设计蓝图,并且无法保证所得表示在任何严格意义上是最优的。物理规则被硬编码到网络拓扑中,改变物理规则意味着重建网络。

在本文中,我们提出一种不同的理念。我们不约束架构以适应对称性,而是改变数学以匹配数据的几何。基于 Kilmer 及其合作者的 *Ṁ 代数 (Kilmer et al., 2021 (https://arxiv.org/html/2605.20440#bib.bib11); Kernfeld et al., 2015 (https://arxiv.org/html/2605.20440#bib.bib12)),我们构建了一个张量代数 *Ġ,其中任意有限群 \(G\) 定义了乘法规则。由此产生的代数将等变性作为乘法的内在属性继承,而不是作为架构约束。组合多个对称性只需指定直积 \(G_1 \times G_2 \times \cdots \times G_d\);无需重新设计。*Ġ 代数具有带可证明的 Eckart–Young 最优性的 SVD(定理 2.1 (https://arxiv.org/html/2605.20440#S2.Thmtheorem1)),并且根据 Peter–Weyl 定理 (Serre, 1977 (https://arxiv.org/html/2605.20440#bib.bib13); Peter and Weyl, 1927 (https://arxiv.org/html/2605.20440#bib.bib14)),自然分解成不可约表示通道,可以揭示物理可观测量的对称性内容(第 2.6 节 (https://arxiv.org/html/2605.20440#S2.SS6))。Wigner–Eckart 定理 (1931) 指出,角动量本征态之间的张量算符矩阵元分解为几何部分(Clebsch–Gordan 系数)和与磁量子数无关的约化矩阵元,这意味着选择定则:一个秩为 \(l\) 的算符仅耦合角动量相差不超过 \(l\) 的态。我们通过 *Ġ 分解从数据中经验性地证明这些定则是可恢复的。

参见图注

图 1:*Ġ 张量代数:从最优分解到对称性发现。
(左上,从分子到代数) 在对称群 \(G\) 的所有元素下测量的分子数据构成结构化张量 \(\mathcal{A} \in \mathbb{R}^{n \times d \times |G|}\),保留了向量化(分解为 \(A \in \mathbb{R}^{n \cdot d \times |G|}\))所破坏的几何信息。 (右上,*Ġ 乘积) 两个张量通过沿管维的群卷积相乘,在傅里叶域通过 Peter–Weyl 定理高效计算:\(F_G\) 将每个张量变换为其块对角谱形式,对每个不可约表示块应用标准矩阵乘积,然后 \(F_G^{-1}\) 返回结果。群 \(G\) 可以是任意有限群(单一对称性或直积 \(G_1 \times G_2 \times \cdots\)),无需架构更改。 (左下,*Ġ-SVD) 每个 *Ġ 张量允许分解 \(\mathcal{A} = \mathcal{U} \star_G \mathcal{S} \star_G \mathcal{V}^H\)。秩 \(k\) 截断 \(\mathcal{A}_k\) 是证明最优的:\(\|\mathcal{A} - \mathcal{A}_k\|_F \leq \|\mathcal{A} - \mathcal{B}\|_F\) 对于任何秩 \(k\) 等变张量 \(\mathcal{B}\)(*Ġ 的 Eckart–Young 定理,定理 2.1 (https://arxiv.org/html/2605.20440#S2.Thmtheorem1))。 (右下,从 Eckart–Young 到 Wigner–Eckart) 提供最优低秩压缩的同一代数框架也充当物理对称性的光谱仪。通过八面体群上的不可约表示 (irrep) 分解预测能力,直接从分子几何数据中恢复了 Wigner–Eckart 选择定则:标量性质由 \(l=0\) (A1) 通道主导,偶极子矢量分量需要 \(l=1\) (T1) 通道,而极化率对 \(l=1\) 独特地不敏感。

## 2 结果

### 2.1 *Ġ 代数

#### 理论基础

设 \(G\) 是一个阶为 \(n\) 的有限群,元素为 \(\{g_1, g_2, \ldots, g_n\}\)。我们定义 *卷积张量* \(\mathcal{T} \in \mathbb{R}^{n \times n \times n}\) 为

\[
\mathcal{T}(a,b,c) = \begin{cases} 1 & \text{if } ab = c \\ 0 & \text{otherwise} \end{cases} \tag{1}
\]

对所有 \(a,b,c \in G\)。该张量编码了 \(G\) 的完整乘法表:其正面切片是置换矩阵,并且满足由群结合性直接继承的结合律恒等式。根据 Peter–Weyl 定理 (Serre, 1977 (https://arxiv.org/html/2605.20440#bib.bib13); Peter and Weyl, 1927 (https://arxiv.org/html/2605.20440#bib.bib14)),\(\mathcal{T}\) 允许谱分解:

\[
\mathcal{T}(a,b,c) = \sum_{i,j,k} \mathcal{C}(i,j,k) \, F_G(a,i) \, F_G(b,j) \, F_G^{-1}(c,k), \tag{2}
\]

其中 \(F_G\) 是由 \(G\) 的不可约酉表示 (irreps) 组成的广义群傅里叶变换矩阵,\(\mathcal{C}\) 是一个稀疏核心张量,编码 \(G\) 的不可约表示的块对角矩阵乘法结构。对于阿贝尔群,\(F_G\) 是一个广义傅里叶矩阵(对于循环群,它退化为标准 DFT 矩阵),\(\mathcal{C}\) 是对角线;对于非阿贝尔群,\(F_G\) 是一个可逆矩阵。\(F_G\) 的精确定义在补充信息(SI 第 2 节)中给出。关键的是,方程 (2) 意味着原始域中的群卷积对应于傅里叶域中的*块对角矩阵乘法*:每个不可约表示块有一个独立的矩阵乘积,从而实现高效计算。

我们将 \((2+d)\) 阶张量 \(\mathcal{A} \in \mathbb{R}^{\ell \times m \times n_1 \times \cdots \times n_d}\) 视为 \(\ell \times m\) 矩阵,其条目(是 \(d\) 阶张量)位于卷积环 \(\mathbb{K}_G\) 中,这里 \(G = G_1 \times \cdots \times G_d\) 且 \(n_i = |G_i|\)。\(\mathcal{A}\) 与 \(\mathcal{B} \in \mathbb{R}^{m \times p \times n_1 \times \cdots \times n_d}\) 的 *⋆_G 积* 通过沿群维的群卷积定义:

\[
(\mathcal{A} \star_G \mathcal{B})_{ij}(c_1, \ldots, c_d) = \sum_k \sum_{(a_1, \ldots, a_d) \in G} \mathcal{A}_{ik}(a_1, \ldots, a_d) \, \mathcal{B}_{kj}(a_1^{-1}c_1, \ldots, a_d^{-1}c_d). \tag{3}
\]

这个乘积定义了一个新颖的张量代数 (Kernfeld et al., 2015 (https://arxiv.org/html/2605.20440#bib.bib12)),它推广了经典矩阵代数,同时将对称群 \(G\) 直接嵌入到乘法结构中。所得到的代数系统支持全套模仿矩阵的操作(逆、转置、范数和分解),所有这些都通过构造继承了等变性。因此,等变是代数的性质,而非施加的约束。

*Ġ 积可以通过以下方式高效计算:(i) 对每个张量沿其群维应用 \(F_G\),(ii) 在 \(|\hat{G}|\) 个傅里叶不可约表示上独立并行执行标准矩阵乘积,以及 (iii) 应用 \(F_G^{-1}\) 恢复结果。对于阿贝尔群 \(G\),总成本为 \(O(n \ell m p + n \log n)\),包括傅里叶变换,与单个矩阵乘积的复杂度相差不超过对数因子。

*⋆_G 埃尔米特转置* \(\mathcal{A}^H \in \mathbb{R}^{m \times \ell \times n_1 \times \cdots \times n_d}\) 按条目定义为

\[
(\mathcal{A}^H)_{ij}(g_1, \ldots, g_d) = \overline{\mathcal{A}_{ji}(g_1^{-1}, \ldots, g_d^{-1})}, \tag{4}
\]

其中上划线表示复共轭(对实值张量为平凡)。等价地,在傅里叶域中,对于每个不可约表示 \(\rho\),有 \(\widehat{\mathcal{A}^H}(:,:,\rho) = \hat{\mathcal{A}}(:,:,\rho)^H\)(\(\hat{\mathcal{A}}(:,:,\rho)\) 的精确定义见 SI 第 3 节),因此 *Ġ 转置映射到每个不可约表示块处的普通矩阵埃尔米特转置。这个定义使得下面的 *Ġ-酉性和 SVD 因子条件完全类似于它们的矩阵对应物。

#### *Ġ-SVD 与最优性

*Ġ 代数中的每个张量 \(\mathcal{A}\) 都允许奇异值分解 \(\mathcal{A} = \mathcal{U} \star_G \mathcal{S} \star_G \mathcal{V}^H\),其中 \(\mathcal{U}\) 和 \(\mathcal{V}\) 是 *Ġ-酉的(满足 \(\mathcal{U}^H \star_G \mathcal{U} = \mathcal{I}\)),\(\mathcal{S}\) 是 f-对角线的(其正面切片是对角矩阵),具有非负实条目,称为*奇异管* \(\mathbf{s}_i\)。该分解通过沿群维应用群傅里叶变换、在每个傅里叶不可约表示处独立执行标准矩阵 SVD 并应用逆群傅里叶变换来精确计算,该过程既精确又计算高效。

###### 定理 2.1 (*Ġ 的 Eckart–Young 定理)。秩 \(k\) 截断 \(\mathcal{A}_k\) 在所有 *Ġ-秩至多为 \(k\) 的张量 \(\mathcal{B}\) 上最小化 \(\|\mathcal{A} - \mathcal{B}\|_F^2\),且 \(\|\mathcal{A} - \mathcal{A}_k\|_F^2 = \sum_{i=k+1}^r \|\mathbf{s}_i\|_F^2\)。

完整证明在补充信息(SI 第 5 节)中给出,机器验证的 Lean 4 形式化证明可在代码仓库中获得(参见代码可用性)。\(\mathcal{A}\) 的 *Ġ-秩是 *Ġ-SVD \(\mathcal{A} = \mathcal{U} \star_G \mathcal{S} \star_G \mathcal{V}^H\) 中非零奇异管的个数。这个结果是经典矩阵 Eckart–Young 定理 (Eckart and Young, 1936 (https://arxiv.org/html/2605.20440#bib.bib15)) 的直接类比:正如秩 \(k\) 矩阵 SVD 提供 Frobenius 范数下的最佳秩 \(k\) 逼近,*Ġ-SVD 提供了该秩下所有群等变张量中的最佳 *Ġ-秩 \(k\) 逼近。这是对保持对称性的张量逼近的第一个此类最优性保证。

相似文章

[R] 测量对称性--数据交换速率

Reddit r/MachineLearning

本文实证测量了等变性理论预测的对称性与数据交换速率,发现错误群对称约束具有实际危害,测试时轨道平均的数据增强与等变架构相匹配,而理论上 |G| 倍的样本复杂度降低仅得到弱证实,且置信区间较宽。该研究明确为探索性,未预先注册。

MoE专业化中的几何不对称性:功能去相关与表示重叠

arXiv cs.LG

本文提出一个Jacobian-PCA-Grassmann框架,用于分析混合专家(MoE)Transformer中专家专业化的几何结构。研究发现,专家表现出强烈的功能去相关,而其表示存在重叠,并且路由稀疏性显著影响这一几何结构。

测量对称性——数据交换率

Hugging Face Daily Papers

这项探索性研究通过受控的C_n对称任务,实证测量了等变性理论预测的对称性-数据交换率,发现错误群组约束反而有害,在测试时进行轨道平均的数据增强与等变模型完全匹配,且实证交换率大致与理论一致但统计上不具决定性。作者强调了该研究的探索性,并呼吁进行注册复制研究。