群代数张量：可证明最优的等变学习与物理对称性发现

arXiv cs.LG 2026/05/21 04:00 论文

group-algebraic-tensors equivariant-learning symmetry-discovery tensor-algebra machine-learning physics lean4

摘要

本文介绍了 ⋆_G 张量代数，该框架将等变性视为内在的代数性质而非架构约束，提供了可证明最优的保对称张量逼近、用于组合多种对称性的克罗内克分解，以及 Lean 4 形式化验证。在 QM9 分子几何上的实验展示了数据驱动的物理对称性选择规则发现。

arXiv:2605.20440v1 公告类型：新摘要：我们引入了 $\star_G$ 张量代数，其中任意有限群 $G$ 定义了乘法规则，使等变性成为内在代数性质而非架构约束。该框架基于三个机器验证的理论支柱：(i) $\star_G$-SVD 的 Eckart-Young 最优性保证——这是首个保对称张量逼近的精确且多项式时间的结果；(ii) 克罗内克分解，通过将 $F_G$ 替换为 $F_{G_1} \otimes F_{G_2}$ 来组合多种对称性，无需重新设计架构；(iii) 600 行的 Lean~4 形式化验证 $\star_G$ 代数。该框架提供了等变神经网络 (ENN) 结构上无法实现的能力：每个预测的闭式不可约表示分解，以及数据驱动发现最适合数据集的对称群。作为一项重要的实证演示，在 QM9 分子几何上对 SO(3) 的手性八面体子群进行分解，仅从数据中恢复出角动量的 Wigner-Eckart 选择规则，无需任何量子力学输入：标量性质由 A$_1$ 主导，偶极分量由 T$_1$ 主导，各向同性极化率对 $l\!=\!1$ 独特地不敏感，符合二阶迹分解 $l\!=\!0 \oplus l\!=\!2$ 的要求，T$_1$/A$_1$ 预测能力比将矢量可观测量与标量可观测量区分开五倍。在完整 QM9 (130,831 个分子) 上，$\star_G$-SVD 与岭回归提供了闭式预测，参数比参数匹配的 MLP 少约 50–90 倍。因此，代数等变性是对架构等变性的补充，而非更快更好更便宜的替代品：它是一种不同的数学能力——可证明最优的保对称压缩、每个不可约表示的可解释性以及数据驱动的物理发现。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:26

# 群代数张量：可证明最优的等变学习与物理对称性发现 来源：https://arxiv.org/html/2605.20440 Shashanka UbaruIBM ResearchDongsung HuhIndependentVasileios KalantzisIBM ResearchKenneth L\. ClarksonIBM ResearchMisha KilmerTufts UniversityHaim AvronTel\-Aviv UniversityLior HoreshIBM Research ###### 摘要 我们引入 *Ġ 张量代数，其中任意有限群 \(G\) 定义乘法规则，使得等变性成为内在的代数属性而非架构约束。该框架建立在三个经机器验证的理论支柱之上：(i) 关于 *Ġ-SVD 的 Eckart–Young 最优性保证：这是首个针对保持对称性的张量逼近的最优性结果，精确且多项式时间复杂度（而 Tucker 仅具有 \(\sqrt{d}\)-拟最优性，CP 是 NP 难的，张量列没有全局最优性）；(ii) 一个 Kronecker 分解，通过将 \(F_G\) 替换为 \(F_{G_1} \otimes F_{G_2}\) 来组合多个对称性，无需重新设计架构；以及 (iii) 一个 600 行的 Lean 4 形式化证明，关于 *Ġ 代数，零个未解决的证明义务。该框架提供了等变神经网络 (ENNs) 在结构上无法实现的能力：对每个预测进行封闭形式的每个不可约表示分解，以及数据驱动的发现最适合数据集的对称群。作为一个非平凡的实证演示，在 SO(3) 的手性八面体子群上分解 QM9 分子几何，仅从数据中恢复了角动量的 Wigner–Eckart 选择定则，无需任何量子力学输入：标量性质由 A1 主导，偶极子分量由 T1 主导，各向同性极化率对 \(l=1\) 独特地不敏感，而秩-2-迹分解 \(l=0 \oplus l=2\) 是必需的，T1/A1 预测能力比将矢量可观测量与标量可观测量区分了五倍。在完整的 QM9（130,831 个分子）上，*Ġ-SVD 结合岭回归以比参数匹配的 MLP 少约 50–90 倍的参数提供了封闭形式的预测，并在参数高效区域中具有竞争力的精度；一个同分异构体内部审计显示，较大模型在聚合 \(R^2\) 上的表观优势主要是一种大小预测效应，一旦控制化学因素后即消失。因此，代数等变不是作为更快、更好、更便宜的替代方案，而是作为一种不同的数学提供物来补充架构等变：可证明最优的保持对称性的压缩、机器验证的等变性、每个不可约表示的可解释性以及数据驱动的物理发现。

## 1 引言

科学与工程中遇到的许多数据本质上是多维的：分子构型编码三维原子位置，量子态存在于指数级大的希尔伯特空间中，传感器阵列跨空间和时间域采样信号。传统的机器学习方法通常将这些数据向量化，将其自然的张量结构压缩成扁平的特征向量 (Kolda and Bader, 2009 (https://arxiv.org/html/2605.20440#bib.bib1); Sidiropoulos et al., 2017 (https://arxiv.org/html/2605.20440#bib.bib2))。这类似于将折纸鹤展开成一张平纸：操作上信息无损，但赋予物体意义的几何结构被破坏了。所有后续处理必须隐式地、以巨大的计算代价恢复一开始就被丢弃的结构。

对称性加剧了这个问题。一个分子存在于三维空间中：它可以被旋转而不改变其性质（旋转对称性），其相同的原子可以按任意顺序索引而不改变分子本身（置换对称性）。这些对称性共存并相互作用 (Noether, 1918 (https://arxiv.org/html/2605.20440#bib.bib3); Bronstein et al., 2021 (https://arxiv.org/html/2605.20440#bib.bib4))，然而向量化将它们视为数据的附带特征，而非根本的结构约束。

纳入对称性的主导范式是通过等变神经网络 (ENNs) (Cohen and Welling, 2016 (https://arxiv.org/html/2605.20440#bib.bib5); Thomas et al., 2018 (https://arxiv.org/html/2605.20440#bib.bib6); Fuchs et al., 2020 (https://arxiv.org/html/2605.20440#bib.bib7); Batzner et al., 2022 (https://arxiv.org/html/2605.20440#bib.bib8))，在分子性质预测 (Schütt et al., 2017 (https://arxiv.org/html/2605.20440#bib.bib9)) 和蛋白质结构预测 (Jumper et al., 2021 (https://arxiv.org/html/2605.20440#bib.bib10)) 方面取得了显著成功。ENNs 通过架构处理对称性：为了尊重旋转，设计旋转等变层；为了尊重置换，设计置换等变层。但是当多个对称性共存时（在几乎所有物理系统中都是如此），架构方法面临组合爆炸的困境。必须为每种新的对称性组合从头重新设计蓝图，并且无法保证所得表示在任何严格意义上是最优的。物理规则被硬编码到网络拓扑中，改变物理规则意味着重建网络。

在本文中，我们提出一种不同的理念。我们不约束架构以适应对称性，而是改变数学以匹配数据的几何。基于 Kilmer 及其合作者的 *Ṁ 代数 (Kilmer et al., 2021 (https://arxiv.org/html/2605.20440#bib.bib11); Kernfeld et al., 2015 (https://arxiv.org/html/2605.20440#bib.bib12))，我们构建了一个张量代数 *Ġ，其中任意有限群 \(G\) 定义了乘法规则。由此产生的代数将等变性作为乘法的内在属性继承，而不是作为架构约束。组合多个对称性只需指定直积 \(G_1 \times G_2 \times \cdots \times G_d\)；无需重新设计。*Ġ 代数具有带可证明的 Eckart–Young 最优性的 SVD（定理 2.1 (https://arxiv.org/html/2605.20440#S2.Thmtheorem1)），并且根据 Peter–Weyl 定理 (Serre, 1977 (https://arxiv.org/html/2605.20440#bib.bib13); Peter and Weyl, 1927 (https://arxiv.org/html/2605.20440#bib.bib14))，自然分解成不可约表示通道，可以揭示物理可观测量的对称性内容（第 2.6 节 (https://arxiv.org/html/2605.20440#S2.SS6)）。Wigner–Eckart 定理 (1931) 指出，角动量本征态之间的张量算符矩阵元分解为几何部分（Clebsch–Gordan 系数）和与磁量子数无关的约化矩阵元，这意味着选择定则：一个秩为 \(l\) 的算符仅耦合角动量相差不超过 \(l\) 的态。我们通过 *Ġ 分解从数据中经验性地证明这些定则是可恢复的。

参见图注

图 1：*Ġ 张量代数：从最优分解到对称性发现。
(左上，从分子到代数) 在对称群 \(G\) 的所有元素下测量的分子数据构成结构化张量 \(\mathcal{A} \in \mathbb{R}^{n \times d \times |G|}\)，保留了向量化（分解为 \(A \in \mathbb{R}^{n \cdot d \times |G|}\)）所破坏的几何信息。 (右上，*Ġ 乘积) 两个张量通过沿管维的群卷积相乘，在傅里叶域通过 Peter–Weyl 定理高效计算：\(F_G\) 将每个张量变换为其块对角谱形式，对每个不可约表示块应用标准矩阵乘积，然后 \(F_G^{-1}\) 返回结果。群 \(G\) 可以是任意有限群（单一对称性或直积 \(G_1 \times G_2 \times \cdots\)），无需架构更改。 (左下，*Ġ-SVD) 每个 *Ġ 张量允许分解 \(\mathcal{A} = \mathcal{U} \star_G \mathcal{S} \star_G \mathcal{V}^H\)。秩 \(k\) 截断 \(\mathcal{A}_k\) 是证明最优的：\(\|\mathcal{A} - \mathcal{A}_k\|_F \leq \|\mathcal{A} - \mathcal{B}\|_F\) 对于任何秩 \(k\) 等变张量 \(\mathcal{B}\)（*Ġ 的 Eckart–Young 定理，定理 2.1 (https://arxiv.org/html/2605.20440#S2.Thmtheorem1)）。 (右下，从 Eckart–Young 到 Wigner–Eckart) 提供最优低秩压缩的同一代数框架也充当物理对称性的光谱仪。通过八面体群上的不可约表示 (irrep) 分解预测能力，直接从分子几何数据中恢复了 Wigner–Eckart 选择定则：标量性质由 \(l=0\) (A1) 通道主导，偶极子矢量分量需要 \(l=1\) (T1) 通道，而极化率对 \(l=1\) 独特地不敏感。

## 2 结果

### 2.1 *Ġ 代数

#### 理论基础

设 \(G\) 是一个阶为 \(n\) 的有限群，元素为 \(\{g_1, g_2, \ldots, g_n\}\)。我们定义 *卷积张量* \(\mathcal{T} \in \mathbb{R}^{n \times n \times n}\) 为

\[
\mathcal{T}(a,b,c) = \begin{cases} 1 & \text{if } ab = c \\ 0 & \text{otherwise} \end{cases} \tag{1}
\]

对所有 \(a,b,c \in G\)。该张量编码了 \(G\) 的完整乘法表：其正面切片是置换矩阵，并且满足由群结合性直接继承的结合律恒等式。根据 Peter–Weyl 定理 (Serre, 1977 (https://arxiv.org/html/2605.20440#bib.bib13); Peter and Weyl, 1927 (https://arxiv.org/html/2605.20440#bib.bib14))，\(\mathcal{T}\) 允许谱分解：

\[
\mathcal{T}(a,b,c) = \sum_{i,j,k} \mathcal{C}(i,j,k) \, F_G(a,i) \, F_G(b,j) \, F_G^{-1}(c,k), \tag{2}
\]

其中 \(F_G\) 是由 \(G\) 的不可约酉表示 (irreps) 组成的广义群傅里叶变换矩阵，\(\mathcal{C}\) 是一个稀疏核心张量，编码 \(G\) 的不可约表示的块对角矩阵乘法结构。对于阿贝尔群，\(F_G\) 是一个广义傅里叶矩阵（对于循环群，它退化为标准 DFT 矩阵），\(\mathcal{C}\) 是对角线；对于非阿贝尔群，\(F_G\) 是一个可逆矩阵。\(F_G\) 的精确定义在补充信息（SI 第 2 节）中给出。关键的是，方程 (2) 意味着原始域中的群卷积对应于傅里叶域中的*块对角矩阵乘法*：每个不可约表示块有一个独立的矩阵乘积，从而实现高效计算。

我们将 \((2+d)\) 阶张量 \(\mathcal{A} \in \mathbb{R}^{\ell \times m \times n_1 \times \cdots \times n_d}\) 视为 \(\ell \times m\) 矩阵，其条目（是 \(d\) 阶张量）位于卷积环 \(\mathbb{K}_G\) 中，这里 \(G = G_1 \times \cdots \times G_d\) 且 \(n_i = |G_i|\)。\(\mathcal{A}\) 与 \(\mathcal{B} \in \mathbb{R}^{m \times p \times n_1 \times \cdots \times n_d}\) 的 *⋆_G 积* 通过沿群维的群卷积定义：

\[
(\mathcal{A} \star_G \mathcal{B})_{ij}(c_1, \ldots, c_d) = \sum_k \sum_{(a_1, \ldots, a_d) \in G} \mathcal{A}_{ik}(a_1, \ldots, a_d) \, \mathcal{B}_{kj}(a_1^{-1}c_1, \ldots, a_d^{-1}c_d). \tag{3}
\]

这个乘积定义了一个新颖的张量代数 (Kernfeld et al., 2015 (https://arxiv.org/html/2605.20440#bib.bib12))，它推广了经典矩阵代数，同时将对称群 \(G\) 直接嵌入到乘法结构中。所得到的代数系统支持全套模仿矩阵的操作（逆、转置、范数和分解），所有这些都通过构造继承了等变性。因此，等变是代数的性质，而非施加的约束。

*Ġ 积可以通过以下方式高效计算：(i) 对每个张量沿其群维应用 \(F_G\)，(ii) 在 \(|\hat{G}|\) 个傅里叶不可约表示上独立并行执行标准矩阵乘积，以及 (iii) 应用 \(F_G^{-1}\) 恢复结果。对于阿贝尔群 \(G\)，总成本为 \(O(n \ell m p + n \log n)\)，包括傅里叶变换，与单个矩阵乘积的复杂度相差不超过对数因子。

*⋆_G 埃尔米特转置* \(\mathcal{A}^H \in \mathbb{R}^{m \times \ell \times n_1 \times \cdots \times n_d}\) 按条目定义为

\[
(\mathcal{A}^H)_{ij}(g_1, \ldots, g_d) = \overline{\mathcal{A}_{ji}(g_1^{-1}, \ldots, g_d^{-1})}, \tag{4}
\]

其中上划线表示复共轭（对实值张量为平凡）。等价地，在傅里叶域中，对于每个不可约表示 \(\rho\)，有 \(\widehat{\mathcal{A}^H}(:,:,\rho) = \hat{\mathcal{A}}(:,:,\rho)^H\)（\(\hat{\mathcal{A}}(:,:,\rho)\) 的精确定义见 SI 第 3 节），因此 *Ġ 转置映射到每个不可约表示块处的普通矩阵埃尔米特转置。这个定义使得下面的 *Ġ-酉性和 SVD 因子条件完全类似于它们的矩阵对应物。

#### *Ġ-SVD 与最优性

*Ġ 代数中的每个张量 \(\mathcal{A}\) 都允许奇异值分解 \(\mathcal{A} = \mathcal{U} \star_G \mathcal{S} \star_G \mathcal{V}^H\)，其中 \(\mathcal{U}\) 和 \(\mathcal{V}\) 是 *Ġ-酉的（满足 \(\mathcal{U}^H \star_G \mathcal{U} = \mathcal{I}\)），\(\mathcal{S}\) 是 f-对角线的（其正面切片是对角矩阵），具有非负实条目，称为*奇异管* \(\mathbf{s}_i\)。该分解通过沿群维应用群傅里叶变换、在每个傅里叶不可约表示处独立执行标准矩阵 SVD 并应用逆群傅里叶变换来精确计算，该过程既精确又计算高效。

###### 定理 2.1 (*Ġ 的 Eckart–Young 定理)。秩 \(k\) 截断 \(\mathcal{A}_k\) 在所有 *Ġ-秩至多为 \(k\) 的张量 \(\mathcal{B}\) 上最小化 \(\|\mathcal{A} - \mathcal{B}\|_F^2\)，且 \(\|\mathcal{A} - \mathcal{A}_k\|_F^2 = \sum_{i=k+1}^r \|\mathbf{s}_i\|_F^2\)。

完整证明在补充信息（SI 第 5 节）中给出，机器验证的 Lean 4 形式化证明可在代码仓库中获得（参见代码可用性）。\(\mathcal{A}\) 的 *Ġ-秩是 *Ġ-SVD \(\mathcal{A} = \mathcal{U} \star_G \mathcal{S} \star_G \mathcal{V}^H\) 中非零奇异管的个数。这个结果是经典矩阵 Eckart–Young 定理 (Eckart and Young, 1936 (https://arxiv.org/html/2605.20440#bib.bib15)) 的直接类比：正如秩 \(k\) 矩阵 SVD 提供 Frobenius 范数下的最佳秩 \(k\) 逼近，*Ġ-SVD 提供了该秩下所有群等变张量中的最佳 *Ġ-秩 \(k\) 逼近。这是对保持对称性的张量逼近的第一个此类最优性保证。

群代数张量：可证明最优的等变学习与物理对称性发现

相似文章

自然场景中的对称性：等变性在神经流体替代模型中的作用

[R] 测量对称性--数据交换速率

优化器设计的对称兼容原则：嵌入层、语言模型头、SwiGLU MLP 和 MoE 路由器

MoE专业化中的几何不对称性：功能去相关与表示重叠

测量对称性——数据交换率

提交意见反馈