DisjunctiveNet: 通过可微凸优化层实现的神经符号学习
摘要
介绍DisjunctiveNet,一个统一的端到端框架,通过可微凸优化层在神经网络中强制执行硬性的、输入相关的混合整数线性约束,在真实世界数据集上实现完美的规则满足。
arXiv:2605.30456v1 公告类型: 新论文
摘要: 科学与工程中的许多学习任务以稀疏数据集为特征,这限制了纯数据驱动方法的有效性。同时,这些问题常常伴随着源自物理定律、操作要求和专家启发式知识的丰富领域知识。这些知识通常以涉及逻辑命题和线性不等式的规则形式表达。现有的神经符号方法通常通过软惩罚近似地强制执行这些规则,在设计专用架构时假设输入无关的规则,或者在推理时依赖非可微的后处理来实现硬约束满足。虽然可微优化层的最新进展使得在神经网络中实现端到端的可行性强制执行成为可能,但由于固有的非凸性,将这些方法扩展到逻辑或混合整数规则仍然具有挑战性。在这项工作中,我们提出了一种统一的端到端框架,用于在神经网络中强制执行硬性的、输入相关的混合整数线性约束。我们的方法将规则表示为析取约束,并应用分层凸松弛来获得凸包公式。这些松弛产生了易于处理的线性约束,这些约束可以嵌入为可微优化层,同时实现精确的规则满足。我们在真实世界数据集上展示了所提出框架的有效性,实现了完美的规则满足和强大的预测性能。
查看缓存全文
缓存时间: 2026/06/01 09:24
# DisjunctiveNet:通过可微凸优化层实现的神经符号学习 来源:https://arxiv.org/html/2605.30456 ###### 摘要 科学和工程中的许多学习任务以稀疏数据集为特征,这限制了纯数据驱动方法的有效性。同时,这些问题通常伴随丰富的领域知识,这些知识源于物理定律、操作要求和专家启发式方法。此类知识常表达为涉及逻辑命题和线性不等式的规则。现有的神经符号方法通常通过软惩罚来近似执行这些规则,在设计特定架构时假设输入无关的规则,或在推理时依赖不可微的后处理来实现硬约束满足。虽然可微优化层的最新进展使得在神经网络内实现端到端可行性约束成为可能,但由于固有的非凸性,将这些方法扩展到逻辑或混合整数规则仍然具有挑战性。在本工作中,我们提出了一个统一的端到端框架,用于在神经网络内执行硬性的、输入相关的混合整数线性约束。我们的方法将规则表示为析取约束,并应用分层凸松弛来获得凸包络公式。这些松弛产生易于处理的线性约束,可嵌入为可微优化层,同时实现精确规则满足。我们在真实世界数据集上展示了所提框架的有效性,实现了完美的规则满足率和强大的预测性能。 机器学习,ICML ## 1 引言 深度学习在自然语言处理(Vaswaniet al.,2023 (https://arxiv.org/html/2605.30456#bib.bib3);Devlinet al.,2019 (https://arxiv.org/html/2605.30456#bib.bib4))、计算机视觉(Heet al.,2016 (https://arxiv.org/html/2605.30456#bib.bib11))等应用中取得了显著性能。类似的学习方法在科学和工程工作流中也越来越有影响力,这些工作流中模型必须捕捉复杂的物理过程(Karniadakiset al.,2021 (https://arxiv.org/html/2605.30456#bib.bib17);Chenet al.,2018 (https://arxiv.org/html/2605.30456#bib.bib18))或高维生物结构(Jumperet al.,2021 (https://arxiv.org/html/2605.30456#bib.bib16))。然而,许多真实世界的科学和工程应用在有限标注数据和频繁分布偏移的环境下运行。在这些情况下,纯数据驱动的深度学习模型可能做出违反已知结构、物理或安全约束的预测,破坏了此类系统的可靠性。同时,这些领域通常提供丰富的先验知识——物理定律、实验协议和专家启发式方法——这些知识在分布偏移下通常仍然有效。大量关于神经符号学习的文献通过*软*惩罚或逻辑规则的可微替代函数来融入领域知识(Huet al.,2020 (https://arxiv.org/html/2605.30456#bib.bib41);Xuet al.,2018 (https://arxiv.org/html/2605.30456#bib.bib28);Wanget al.,2019 (https://arxiv.org/html/2605.30456#bib.bib33);Manhaeveet al.,2018 (https://arxiv.org/html/2605.30456#bib.bib30);Giunchigliaet al.,2022 (https://arxiv.org/html/2605.30456#bib.bib42))。虽然实践中有效,但软强制执行不能保证可行性,且惩罚系数调节成本高昂。同时,可微优化层为许多连续和凸约束族提供了*硬*强制执行(Amos and Kolter,2017 (https://arxiv.org/html/2605.30456#bib.bib70);Agrawalet al.,2019 (https://arxiv.org/html/2605.30456#bib.bib69))。然而,将这些层扩展到*逻辑*规则具有挑战性:诸如蕴含和析取这类算子自然产生非凸、不相交的可行域,且许多科学规则是*输入相关*的(“如果-那么”),仅在特定条件下激活。 本文引入了一个框架,用于在神经网络(NN)输出上强制执行*输入相关的逻辑规则*,其中每条规则表示为一组线性约束的有限析取,对应于多面体的并集。我们证明这种约束表示与优化社区使用的混合整数线性规划(MILP)约束以及神经符号社区使用的无量词线性实数算术(QF-LRA)具有相同的表达能力。为了保证精确的约束满足同时保留端到端可微性,我们采用析取编程文献中的基本步骤层次(Balas,2018 (https://arxiv.org/html/2605.30456#bib.bib2))来顺序凸化析取约束,从合取范式(CNF)到析取范式(DNF)。我们证明DNF的凸包络重构可以表示为可微线性规划(LP),同时保证原始逻辑约束的满足。我们在合成控制任务和一个真实世界的单细胞RNA测序(scRNA-seq)分类基准上评估了所提方法,其中领域知识自然地表现为输入相关的逻辑规则。在所有设置中,强制执行逻辑结构在数据稀缺场景下提供了强大的归纳偏置,并显著改善了推理时的规则满足率。 ## 2 相关工作 #### 连续约束 对于连续约束,大多数基于学习的方法属于软强制执行或硬强制执行类别。软方法通过惩罚或增广拉格朗日目标以及对偶原始风格更新来鼓励可行性(Fiorettoet al.,2020 (https://arxiv.org/html/2605.30456#bib.bib40);Park and Van Hentenryck,2023 (https://arxiv.org/html/2605.30456#bib.bib38)),以及通过展开梯度迭代或基于约束的补全等可微校正方案(Dontiet al.,2021 (https://arxiv.org/html/2605.30456#bib.bib83))。虽然经验上通常有效,但这些方法在训练或推理时通常不提供可行性保证。相比之下,硬方法通过设计强制执行可行性,例如,在前向传播中嵌入优化层并通过隐式微分对Karush-Kuhn-Tucker(KKT)条件进行微分(Amos and Kolter,2017 (https://arxiv.org/html/2605.30456#bib.bib70);Agrawalet al.,2019 (https://arxiv.org/html/2605.30456#bib.bib69))。除了优化层,最近的工作还提出了定制的基于投影的方法,利用特殊情况的闭式解,如线性等式(Chenet al.,2024 (https://arxiv.org/html/2605.30456#bib.bib75))、凸约束的规范函数(Constante-Floreset al.,2025 (https://arxiv.org/html/2605.30456#bib.bib39);Tabas and Zhang,2022 (https://arxiv.org/html/2605.30456#bib.bib74);Lianget al.,2024 (https://arxiv.org/html/2605.30456#bib.bib71);Tordesillaset al.,2023 (https://arxiv.org/html/2605.30456#bib.bib91))、可行域的内近似(Frerixet al.,2020 (https://arxiv.org/html/2605.30456#bib.bib64);Zhenget al.,2021 (https://arxiv.org/html/2605.30456#bib.bib79))以及迭代投影过程(Lastrucci and Schweidtmann,2025 (https://arxiv.org/html/2605.30456#bib.bib49);Iftakheret al.,2025 (https://arxiv.org/html/2605.30456#bib.bib100);Nguyen and Donti,2025 (https://arxiv.org/html/2605.30456#bib.bib101))。尽管在强制执行硬约束方面取得了这些进展,但现有方法主要局限于连续约束,特别是凸约束,并没有直接处理逻辑或离散约束。 #### 逻辑约束 神经符号人工智能社区(Giunchigliaet al.,2022 (https://arxiv.org/html/2605.30456#bib.bib42))发展了一条正交的工作线,将逻辑或符号规则融入神经网络。一种常见方法是修改损失函数,将逻辑约束转换为可微惩罚项,使训练偏向于规则满足(Xuet al.,2018 (https://arxiv.org/html/2605.30456#bib.bib28);Huet al.,2020 (https://arxiv.org/html/2605.30456#bib.bib41);Fischeret al.,2019 (https://arxiv.org/html/2605.30456#bib.bib29);Badreddineet al.,2022 (https://arxiv.org/html/2605.30456#bib.bib23);Manhaeveet al.,2018 (https://arxiv.org/html/2605.30456#bib.bib30))。这些方法灵活且很大程度上与领域无关,但不能保证精确的规则满足。为了处理硬约束,一个显著的例外是MultiplexNet(Hoernleet al.,2022 (https://arxiv.org/html/2605.30456#bib.bib36)),它修改神经网络架构以嵌入析取约束,并使用变分推理训练模型,使得至少一个析取项得到满足。然而,MultiplexNet只能嵌入全局约束,不能表示依赖于神经网络输入的不同约束。此外,在神经符号人工智能文献中,尚未研究在逻辑和连续输出上嵌入由MILP表示的一般硬线性不等式。 强制执行一般MILP约束的一个主要挑战是,相关优化问题的最优解通常相对于训练参数不可微。因此,梯度不能直接反向传播以训练神经网络。一个简单的变通方法是在推理时通过求解基于神经分数的ILP约束解码问题来强制执行可行性(Roth and Yih,2005 (https://arxiv.org/html/2605.30456#bib.bib45))。最近的工作旨在使离散优化模块可微。直通估计器(STE)最初是为了将阈值函数视为恒等函数来微分而提出的,最近被扩展到具有输入无关约束集的组合优化问题(Sahooet al.,2023 (https://arxiv.org/html/2605.30456#bib.bib47))。一条工作线考虑组合优化问题的凸松弛。例如,线性规划(LP)松弛与正则化在(Wilderet al.,2019 (https://arxiv.org/html/2605.30456#bib.bib51);Ferberet al.,2020 (https://arxiv.org/html/2605.30456#bib.bib34);McKenzieet al.,2024 (https://arxiv.org/html/2605.30456#bib.bib50))中进行了探索,而半定规划(SDP)松弛在SATNet中使用(Wanget al.,2019 (https://arxiv.org/html/2605.30456#bib.bib33))。然而,这些方法不能保证硬约束的精确满足。另一条工作线使用随机扰动为argmax算子推导平滑替代梯度(Berthetet al.,2020 (https://arxiv.org/html/2605.30456#bib.bib43))。虽然在某些设置中有效,但这种方法需要重复求解组合优化问题来估计一个梯度,计算代价高昂。此外,它们通常假设固定的约束集,不支持依赖于输入的约束。 现有方法与我们的方法之间的详细比较见附录A (https://arxiv.org/html/2605.30456#A1)。我们的工作属于使用凸松弛来近似混合整数线性约束的方法类别。与先前工作的关键区别在于,我们推导出的松弛对应于原始约束集的凸包络,即尽可能紧的凸松弛。基于这种紧致性结果,我们可以形式化证明约束被精确满足。相比之下,现有方法如(Wilderet al.,2019 (https://arxiv.org/html/2605.30456#bib.bib51);Ferberet al.,2020 (https://arxiv.org/html/2605.30456#bib.bib34);McKenzieet al.,2024 (https://arxiv.org/html/2605.30456#bib.bib50))主要将凸松弛用作启发式方法,一般不能保证约束满足。 总之,据我们所知,我们的方法是唯一能够在训练和推理期间在神经网络内强制执行硬性的、输入相关的混合整数线性约束的方法。 ## 3 方法 令 \(x \in \mathcal{X}\) 表示输入。神经网络 \(f_\theta: \mathcal{X} \to \mathcal{Y}\) 产生无约束预测 \(\hat{y} = f_\theta(x)\),其中 \(\mathcal{Y} \subseteq \mathbb{R}^d\) 表示输出空间,可能包含连续和离散分量。所提方法的目标是通过将无约束输出 \(\hat{y}\) 投影到由多个约束定义的可行集上,来对预测施加约束。第3.1节 (https://arxiv.org/html/2605.30456#S3.SS1) 定义了该方法可执行的约束类别,并证明它们与MILP和QF-LRA具有相同的表达能力。第3.2节 (https://arxiv.org/html/2605.30456#S3.SS2) 描述了如何对约束集进行凸化以构造一个LP可表示的可微优化层。 ### 3.1 规则的定义与表达能力 #### 输入相关规则 我们使用 \(R\) 条规则的集合来建模领域知识,每条规则表示为蕴含式 \[ \mathbb{I}[x \in \mathcal{A}_r] \Rightarrow \mathbb{I}[y \in \mathcal{C}_r(x)], \qquad r = 1, \dots, R, \tag{1} \] 其中 \(\mathcal{A}_r \subseteq \mathcal{X}\) 是规则 \(r\) 的*激活集*,\(\mathcal{C}_r(x) \subseteq \mathcal{Y}\) 是对应的*输出可行集*。也就是说,当输入 \(x\) 位于 \(\mathcal{A}_r\) 中时,输出 \(y\) 必须属于 \(\mathcal{C}_r(x)\)。规则总数记为 \(R\),不同输入可能激活不同的规则子集。设 \(\mathcal{R}(x) := \{ r \in \{1, \dots, R\} \mid x \in \mathcal{A}_r \}\) 表示给定输入 \(x\) 所激活的规则集。那么对于输入 \(x\),规则诱导的可行集由相应输出可行集的交集给出: \[ \mathcal{F}(x) = \bigcap_{r \in \mathcal{R}(x)} \mathcal{C}_r(x). \tag{2} \] 该公式捕捉了以多条输入相关的 if-then 规则表达的领域知识,其中输出的可行性显式依赖于输入。 #### \(\mathcal{A}_r\) 和 \(\mathcal{C}_r(x)\) 的表达能力 我们假设每个激活集 \(\mathcal{A}_r\) 是输入空间 \(\mathcal{X}\) 的紧子集,例如多面体或椭球集,并且可以高效验证 \(x\) 是否属于 \(\mathcal{A}_r\)。我们进一步假设每个输出可行集 \(\mathcal{C}_r(x)\) 可以表示为有限个多面体集的并集,即 \[ \mathcal{C}_r(x) = \bigcup_{j=1}^{m_r} \mathcal{S}_{rj}(x), \quad \mathcal{S}_{rj}(x) = \{ y : A_{rj}(x) y \leq b_{rj}(x) \}. \tag{3} \] 其中 \(m_r\) 表示与规则 \(r\) 关联的多面体集的数量,\(A_{rj}(x)\) 和 \(b_{rj}(x)\) 分别定义约束矩阵和右侧向量。\(A_{rj}(x)\) 和 \(b_{rj}(x)\) 都可能依赖于输入 \(x\),从而允许可行集随输入变化。每个多面体并集 \(\mathcal{C}_r(x)\) 称为一个*析取*。并集内的每个多面体 \(\mathcal{S}_{rj}(x)\) 称为一个*析取项*。因此,集 \(\mathcal{F}(x)\) 可以表示多面体并集的交集。以下命题表明,相似文章
输入凸神经网络训练的一种提升方法
提出了一种用于训练输入凸神经网络(ICNN)的“提升”方法,该方法使用无约束的超网络生成非负的层间权重,从而软化损失景观并避免梯度衰减,相比投影梯度下降和softplus重参数化,实现了更低的测试损失。
逐层导数控制网络
介绍了ChainzRule,一种使用多项式引擎和微分正则化的神经架构,用于平衡准确性、硬件效率和功能稳定性,以15.5倍的参数减少和更平滑的梯度优于标准模型。
基于离散扩散的约束代码生成
本文介绍了Constrained Diffusion for Code (CDC),这是一种无需训练的神经符号推理框架,它将约束满足直接集成到离散扩散模型的逆向去噪过程中,用于代码生成。CDC在功能正确性、安全性和语法方面持续提升约束满足率,在多个基准测试中优于现有的扩散模型和自回归基线。
DualOptim+:桥接共享与解耦优化器状态以改进大型语言模型中的机器遗忘
介绍了DualOptim+,一个面向LLM遗忘的优化框架,它使用共享基态和解耦增量态来平衡遗忘与保留目标,并提供量化变体以减少内存占用。
视觉感知到概念的一阶规则学习网络 [R]
本文介绍了gammaILP,一个完全可微的框架,能够直接从图像数据中学习一阶规则,且无标签泄露,解决了符号接地和谓词发明等挑战。