用于符号函数与反导数发现的加性原子森林

arXiv cs.LG 论文

摘要

本文提出了“加性原子森林”框架,利用导数代数和自扩展原子库,同时从数据中恢复函数及其反导数的符号形式。该方法在分类基准和费曼符号回归任务上表现优异,且结果具有可解释性。

arXiv:2605.08130v1 公告类型:新论文 摘要:我们提出了一种从数据中同时恢复函数及其反导数符号形式的框架。该框架基于三个核心思想。首先,导数代数:观察到乘积法则 $\frac{d}{dx}[f \cdot g] = f'g + fg'$ 和链式法则,若应用于初等函数的种子集合,将生成一个自扩展的函数-导数对系统——这是一个每次发现新函数时都会增长的“活”库。其次,两种互补的原语——EML$\,(e^u - \ln v)$,理论上对所有初等函数完备,以及本文引入的 SOL$\,(\sin u - \cos v)$,使得三角原子在深度 1 时即可用,而非深度~$\sim$8——这些原语以较低成本为库注入核心原子。第三,加性原子森林:原语树的有限和,可选地通过乘法节点组合,其导数通过连续优化或在库上进行穷举搜索来拟合数据。由于每个原子的导数由构造决定,森林同时编码了符号表达式 $F$ 及其导数 $F'$;无需进行符号积分步骤。 该库并非固定对象:它从小的种子集合出发,通过递归应用乘积法则、链式法则和两种原语自我构建,并随着新发现函数的折叠回归而增长。库越大,可表达候选函数的类别越丰富。我们为该框架提供了条件完备性、加性深度和分析同时恢复的结果。在实证方面,我们在报告的 17 个分类基准测试中,稀疏原子组合在 13 个数据集上的表现匹配或超过了 XGBoost,同时生成了可解释的公式。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/12 06:48

# 用于符号函数和原函数发现的加性原子森林:生成基元、乘积法则闭包与导数匹配优化
来源: https://arxiv.org/html/2605.08130
\(2026年5月\)

###### 摘要

我们提出了一种从数据中同时符号化恢复函数及其原函数的框架。该框架基于三个核心思想。首先,是*导数代数*:观察到乘积法则 $\frac{d}{dx}[f\cdot g]=f'g+fg'$ 和链式法则,当应用于初等函数的种子集时,能生成一个自我扩展的函数-导数对系统——这是一个“活”的库,每发现一个新函数就会增长。其次,是两个互补的基元——EML($e^u-\ln v$,理论上对所有初等函数完备)和本文引入的 SOL($\sin u-\cos v$,使三角函数原子在深度 1 处可用,而不是深度 $\sim 8$),它们以低成本为核心原子库提供种子。第三,是*加性原子森林*:有限个基元树的和(可选地通过乘法节点组合),其导数通过连续优化或在库中穷举搜索来拟合数据。由于每个原子的导数由构造确定,该森林同时编码了符号表达式 $F$ 及其导数 $F'$;无需符号积分步骤。

该库并非固定对象:它通过递归应用乘积法则、链式法则和两个基元,从少量种子集自我构建,并可以将新发现的函数折叠回去以扩大规模。库越大,可表达候选函数的类别就越丰富。我们给出了该框架的条件完备性、加性深度和分析同时恢复结果。在经验上,在我们报告的 17 个分类基准测试运行中,稀疏原子组合在 13 个数据集上的表现匹敌或超过 XGBoost,同时产生可解释的公式。在费曼符号回归基准测试中,深度为 3 的自我构建库在 31% 的方程上实现了精确恢复,在另外 40% 的方程上相对均方误差低于 0.01。我们通过提出来自 SPARC 星系数据库的候选径向加速度关系,在真实科学数据上演示了该方法。

###### 目录

1. 1 引言 (https://arxiv.org/html/2605.08130#S1)
2. 2 初等函数的导数代数 (https://arxiv.org/html/2605.08130#S2)
    1. 2.1 初等函数 (https://arxiv.org/html/2605.08130#S2.SS1)
    2. 2.2 通过乘积法则的求导闭包 (https://arxiv.org/html/2605.08130#S2.SS2)
3. 3 生成基元 (https://arxiv.org/html/2605.08130#S3)
    1. 3.1 EML(指数减对数)(https://arxiv.org/html/2605.08130#S3.SS1)
    2. 3.2 SOL(正弦与余弦)(https://arxiv.org/html/2605.08130#S3.SS2)
4. 4 规范形式与参数化树 (https://arxiv.org/html/2605.08130#S4)
5. 5 加性原子森林 (https://arxiv.org/html/2605.08130#S5)
6. 6 乘法节点与增强森林 (https://arxiv.org/html/2605.08130#S6)
7. 7 导数匹配原理 (https://arxiv.org/html/2605.08130#S7)
8. 8 自我扩展原子库 (https://arxiv.org/html/2605.08130#S8)
    1. 8.1 构建过程 (https://arxiv.org/html/2605.08130#S8.SS1)
9. 9 搜索算法 (https://arxiv.org/html/2605.08130#S9)
    1. 9.1 预计算 (https://arxiv.org/html/2605.08130#S9.SS1)
    2. 9.2 $K=1$:向量化标量回归 (https://arxiv.org/html/2605.08130#S9.SS2)
    3. 9.3 $K=2$:向量化克莱姆法则 (https://arxiv.org/html/2605.08130#S9.SS3)
    4. 9.4 $K\geq 3$:束搜索 (https://arxiv.org/html/2605.08130#S9.SS4)
    5. 9.5 验证 (https://arxiv.org/html/2605.08130#S9.SS5)
10. 10 训练(基于梯度模式)(https://arxiv.org/html/2605.08130#S10)
11. 11 结构复杂度 (https://arxiv.org/html/2605.08130#S11)
    1. 11.1 与刘维尔-里施分解的联系 (https://arxiv.org/html/2605.08130#S11.SS1)
12. 12 与现有方法的比较 (https://arxiv.org/html/2605.08130#S12)
13. 13 经验结果 (https://arxiv.org/html/2605.08130#S13)
    1. 13.1 分类:原子 vs. XGBoost (https://arxiv.org/html/2605.08130#S13.SS1)
    2. 13.2 回归 (https://arxiv.org/html/2605.08130#S13.SS2)
    3. 13.3 可解释公式及其导数 (https://arxiv.org/html/2605.08130#S13.SS3)
    4. 13.4 费曼可表示性测试 (https://arxiv.org/html/2605.08130#S13.SS4)
    5. 13.5 演示:径向加速度关系 (https://arxiv.org/html/2605.08130#S13.SS5)
    6. 13.6 失效模式 (https://arxiv.org/html/2605.08130#S13.SS6)
14. 14 扩展 (https://arxiv.org/html/2605.08130#S14)
    1. 14.1 多元规范形式 (https://arxiv.org/html/2605.08130#S14.SS1)
    2. 14.2 守恒量发现 (https://arxiv.org/html/2605.08130#S14.SS2)
15. 15 结论 (https://arxiv.org/html/2605.08130#S15)
16. 参考文献 (https://arxiv.org/html/2605.08130#bib)

## 1 引言

乘积的导数为

$$
\frac{d}{dx}[f(x)\cdot g(x)] = f'(x)\,g(x) + f(x)\,g'(x). \tag{1}
$$

这一恒等式与链式法则共同构成了本工作的引擎。如果我们知道有限个初等函数的导数,乘积法则和链式法则允许我们计算这些函数的任何复合、乘积或幂的导数——从而计算任何初等函数的导数。幂是一个特例:$f^n = f\cdot f\cdots f$,因此 $\frac{d}{dx}[f^n] = nf^{n-1}f'$ 可以通过重复应用式 (1) 得到。这种闭包属性意味着,配备导数的一小组种子函数可以引导出一个任意大的函数-导数对库。

这一观察结果提出了一种与现有方法根本不同的符号回归策略(Cranmer, 2023; Udrescu & Tegmark, 2020; Schmidt & Lipson, 2009)。我们不是搜索一个拟合数据的函数,而是构建一个*自我扩展的库*,其中包含原子(每个原子是一个命名的初等函数及其解析导数的配对),并搜索与数据匹配的*导数*的稀疏线性组合。当匹配精确时,对应的原子线性组合即为原函数,立即以闭形式可用。无需调用符号积分算法(Risch, 1969, 1970),也不对数据进行数值积分。

该库不是静态目录。它从种子集(有理幂、生成基元的深度-1树)开始,通过在不同深度应用乘积法则、链式法则和复合来自我构建。每个新发现的函数——无论是通过搜索找到的还是由用户提供的——都与其导数一起折叠回库中,为后续问题扩展搜索空间。因此,库作为一个持久的*知识库*运行:每个经过验证的发现都可以扩大后续问题可用的候选集。其大小受可用内存限制,库越大,可表达的候选函数类别就越丰富。

该框架有三层:

1. (i) *基元*。两个二元算子——EML($e^u-\ln v$,由 Odrzywołek (2026) 引入)和 SOL($\sin u-\cos v$,本文引入)——与终端 $1$ 和 $x$ 一起使用,在深度 1 处用核心原子为库提供种子。EML 原生产生指数和对数原子,并且在理论上完备(取决于所引用的结果)。SOL 原生产生三角函数原子;它单独不完备,但如果没有它,库中的每个三角原子都需要深度 $\sim 8$ 的 EML 树,为了相同的覆盖率,库将膨胀几个数量级。混合语法 $S\to 1\mid x\mid\operatorname{eml}(S,S)\mid\operatorname{sol}(S,S)$ 在保持完备性的同时,使指数和三角原子保持浅层。
2. (ii) *自我扩展原子库*。一种分层构建过程,给定深度预算 $d_{\max}$ 和数据网格,通过递归应用生成基元、乘积法则和链式法则,构建一个函数-导数对库。库随深度增长:浅层构建($d_{\max}=1$)产生数百个原子;深层构建($d_{\max}=3$)产生数万个原子。以前发现的函数在问题之间保留,因此库随时间积累知识。
3. (iii) *加性原子森林*。原子(或者更一般地说,通过乘法节点组成的参数化树)的有限和 $F=\sum_k c_k T_k$,其导数 $F'=\sum_k c_k T_k'$ 被拟合到数据。加性结构表示原树之外的顶层求和,而不是强迫将加法编码在单个生成基元树内部。

预期的贡献是这些特征的结合:为导数匹配函数及其原函数提供符号输出,无需单独的符号积分步骤,以及一个可以将每个经过验证的发现反馈到不断增长的知识库中的库。

## 2 初等函数的导数代数

### 2.1 初等函数

令 $\mathcal{E}$ 表示单变量初等函数域(Liouville, 1833; Ritt, 1948):有理函数 $\mathbb{C}(x)$ 在 $\exp$、$\log$ 和复合下的闭包。这包括所有代数、三角、双曲和反三角函数。

### 2.2 通过乘积法则的求导闭包

###### 命题 2.1(乘积法则闭包)。

设 $\mathcal{A}=\{(\varphi_k,\varphi_k')\}_{k=1}^M$ 为有限个函数-导数对集合,其中每个 $\varphi_k\in\mathcal{E}$。定义*乘积法则闭包* $\overline{\mathcal{A}}$ 为包含 $\mathcal{A}$ 且在以下操作下封闭的最小集合:

1. (a) *乘积*:如果 $(\varphi,\varphi'), (\psi,\psi')\in\overline{\mathcal{A}}$,则 $(\varphi\cdot\psi,\;\varphi'\psi+\varphi\psi')\in\overline{\mathcal{A}}$。
2. (b) *复合*:如果 $(\varphi,\varphi')\in\overline{\mathcal{A}}$ 且 $f$ 是导数 $f'$ 已知的初等函数,则 $(f\circ\varphi,\;(f'\circ\varphi)\cdot\varphi')\in\overline{\mathcal{A}}$。
3. (c) *线性组合*:如果 $(\varphi,\varphi'), (\psi,\psi')\in\overline{\mathcal{A}}$ 且 $c\in\mathbb{R}$,则 $(\varphi+c\psi,\;\varphi'+c\psi')\in\overline{\mathcal{A}}$。

那么 $\overline{\mathcal{A}}$ 包含对于每个由 $\mathcal{A}$ 的元素通过乘积、复合和求和构建的 $f\in\mathcal{E}$,对 $(f,f')$。

###### 证明。

直接由乘积法则、链式法则和求导的线性性得出。 $\square$

## 3 生成基元

###### 定义 3.1(生成基元)。

*生成基元*是一对 $(P,c)$,其中 $P:\mathbb{C}^2\to\mathbb{C}$ 是一个二元运算,$c\in\mathbb{C}$ 是一个区分常数。变量 $x$ 也可用作终端。该对满足:

1. (a) *生成*。每个 $f\in\mathcal{E}$ 都可以表示为由语法 $S\to c\mid x\mid P(S,S)$ 生成的有限表达式的求值。
2. (b) *可微性*。存在函数 $A,B$ 使得对于可微的 $u(x), v(x)$,
   $$
   \frac{d}{dx}\,P(u,v) = A(u,v)\cdot u' + B(u,v)\cdot v'. \tag{2}
   $$

仅满足条件 (b) 而不满足条件 (a) 的对 $(P,c)$ 称为*辅助基元*;它为库贡献原子,但单独不能生成所有 $\mathcal{E}$。

我们使用两个互补的基元。第一个是 EML,由 Odrzywołek (2026) 引入,是定义 3.1 意义上的生成基元(满足条件 (a) 和 (b));第二个是 SOL,是本工作新的,是辅助基元(满足 (b) 但不满足 (a))。

### 3.1 EML(指数减对数)

$$
\operatorname{eml}(u,v) = e^u - \ln v, \qquad c=1. \tag{3}
$$
导数系数:$A(u,v)=e^u$,$B(u,v)=-1/v$,给出
$$
\frac{d}{dx}\,\operatorname{eml}(u,v) = e^u\cdot u' - \frac{v'}{v}. \tag{4}
$$
生成:$\operatorname{eml}(x,1)=e^x$ 且 $\operatorname{eml}(1,\operatorname{eml}(\operatorname{eml}(1,x),1))=\ln x$。由于 $\exp$ 和 $\ln$ 在 $\mathbb{C}$ 上生成 $\mathcal{E}$,所引用的 EML 结果意味着语法 $S\to 1\mid x\mid\operatorname{eml}(S,S)$ 是完备的,前提是所引用的完备性定理适用于当前的终端集。

### 3.2 SOL(正弦与余弦)

$$
\operatorname{sol}(u,v) = \sin(u) - \cos(v), \qquad c=1. \tag{5}
$$
导数系数:$A(u,v)=\cos(u)$,$B(u,v)=\sin(v)$,给出
$$
\frac{d}{dx}\,\operatorname{sol}(u,v) = \cos(u)\cdot u' + \sin(v)\cdot v'. \tag{6}
$$
在深度 1,叶子来自 $\{1,x\}$:

$$
\begin{aligned}
\operatorname{sol}(x,1) &= \sin x - \cos 1, \\
\frac{d}{dx} &= \cos x, \tag{7}
\end{aligned}
$$
$$
\begin{aligned}
\operatorname{sol}(1,x) &= \sin 1 - \cos x, \\
\frac{d}{dx} &= \sin x, \tag{8}
\end{aligned}
$$
$$
\begin{aligned}
\operatorname{sol}(x,x) &= \sin x - \cos x, \\
\frac{d}{dx} &= \cos x + \sin x. \tag{9}
\end{aligned}
$$

## 4 规范形式与参数化树

固定基元 $(P,c)$(生成或辅助)。

###### 定义 4.1(深度 $d$ 的规范形式)。

深度 $d$ 的规范形式是一棵全二叉树,有 $2^d$ 个叶子和 $2^d-1$ 个内部节点,所有节点都应用 $P$。每个叶子 $\ell$ 计算
$$
L_\ell(x;\,\alpha_\ell,\beta_\ell) = \sigma(\alpha_\ell)\cdot 1 + \sigma(\beta_\ell)\cdot x, \tag{11}
$$
其中 $\sigma$ 是对 $(\alpha_\ell,\beta_\ell)$ 对的 softmax。在取整后,每个叶子选择常数 $1$ 或变量 $x$。

###### 命题 4.2(递归导数)。

规范形式的导数可以从底部向上计算:

叶子:
$$
L_\ell'(x) = \sigma(\beta_\ell), \tag{12}
$$
节点:
$$
\frac{d}{dx}P(u,v) = A(u,v)\cdot u' + B(u,v)\cdot v',
$$

相似文章

乐观对偶平均化统一了现代优化器

arXiv cs.LG

本文介绍了 SODA,这是乐观对偶平均化的一种广义形式,统一了 Muon 和 Lion 等现代优化器。该研究提出了一种实用包装器,在不同规模下均可提升性能,且无需为权重衰减进行额外的超参数调优。

学习自适应推理路径以实现高效视觉推理

Hugging Face Daily Papers

AVR是一种自适应视觉推理框架,能够动态选择最优推理格式,在视觉推理任务中减少50-90%的token使用量同时保持准确性。该方法通过将视觉推理分解为三种认知功能并使用FS-GRPO训练来鼓励高效格式选择,从而解决推理路径冗余问题。

代理式发现交换相关密度泛函

arXiv cs.AI

本文提出了一种基于大语言模型的代理系统,用于自动化发现密度泛函理论中的交换相关泛函。该系统在性能上超越了人工设计的基线,同时也凸显了基准过拟合带来的挑战。