形状约束的神经松弛变量

arXiv cs.LG 论文

摘要

本文介绍了神经松弛变量,一种原始侧方法,通过将主网络与联合学习的辅助网络耦合,将约束执行转化为回归问题,在单调性和凸性测试上实现零违规,并实现波动率曲面的无套利学习。

arXiv:2606.13803v1 Announce Type: new 摘要:在神经网络中强制执行单调性和凸性等函数不等式约束,是许多工业和科学应用中的基本挑战。经典的单边惩罚方法以及由互补松弛条件门控的原始-对偶方法,仅在违反位置提供约束梯度,导致脆弱的满足性。而通过构造保证可行性的架构,在很大程度上仍局限于简单情况,并引入了额外的归纳偏差。我们提出了神经松弛变量,一种深度学习原生的原始侧方法,通过将主网络与联合学习的辅助网络耦合,将约束执行转化为回归问题。辅助网络作为主网络约束量的有效目标,诱导出可行性和正则性。神经松弛变量在密集网格的单调性和凸性测试案例中实现了零测量违规,而惩罚和原始-对偶基线则留下了残余违规,并且实现了波动率曲面的无套利学习——这是量化金融中一个开放的工业挑战。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:07

# 神经松弛变量用于形状约束 来源:https://arxiv.org/html/2606.13803 Ruben Wiedemann 帝国理工学院 伦敦,英国 r\.wiedemann22@imperial\.ac\.uk &Antoine Jacquier 帝国理工学院 伦敦,英国 a\.jacquier@imperial\.ac\.uk &Lukas Gonon 圣加仑大学 圣加仑,瑞士 lukas\.gonon@unisg\.ch ###### 摘要 在神经网络中强制施加诸如单调性和凸性等函数不等式约束,是许多工业和科学应用中的基本挑战。经典的单侧惩罚方法,以及由互补松弛条件门控的原始-对偶方法,仅在违反位置提供约束梯度,导致脆弱的满足性。另一方面,通过构造保证可行性的架构,在大多程度上仍局限于基本情形,并会引入额外的归纳偏差。我们提出*神经松弛变量*,这是一种深度学习原生的原始侧方法,通过将主网络与一个联合学习的辅助网络耦合,将约束强制施加转化为回归问题。辅助网络作为主网络约束量的有效目标,引导其可行性和正则性。在密集网格的单调性和凸性测试案例中,神经松弛变量实现了零测量的违规,而惩罚和原始-对偶基线方法存在残余违规,并使得波动率曲面的无套利学习成为可能,这是量化金融中的一个开放工业挑战。

## 1 引言

在科学计算和工业领域(如控制系统和量化金融)中,神经网络作为低维连续域上的学习函数逼近器。学习得到的映射必须既高保真地复现数据,又尊重已知的结构性规律,如单调性、凸性、稳定性或无套利。这些是*形状约束*:对函数及其导数在定义域上必须处处成立的条件,表现为函数不等式。

标准神经网络架构没有提供内在机制来保持这些约束,无约束训练通常会产生拟合数据但在操作上不一致的模型。对于基本约束类型,存在通过构造保证可行性的专门架构(*架构约束*):用于单调性的约束单调神经网络 (CMNN) (Runje and Shankaranarayana, 2023 (https://arxiv.org/html/2606.13803#bib.bib42); Sartore et al., 2025 (https://arxiv.org/html/2606.13803#bib.bib44)),用于凸性的输入凸神经网络 (ICNN) (Amos et al., 2017 (https://arxiv.org/html/2606.13803#bib.bib3))。这些架构限制了假设类,这可能导致训练更困难,并使拟合偏向低频解 (Sivaprasad et al., 2021 (https://arxiv.org/html/2606.13803#bib.bib46))。

对于一般约束和架构,必须通过训练过程来强制约束(*软约束*)。深度学习中的默认方法是*惩罚方法*:在目标函数中添加一个违规成本项,计算为约束残差的聚合;其权重决定约束满足相对于数据拟合的强制程度。Ramirez et al. (2025 (https://arxiv.org/html/2606.13803#bib.bib41)) 倡导将原始-对偶方法作为原则性的替代方案,该方法引入拉格朗日乘子,自适应地平衡拟合和可行性。然而,在深度学习场景中,两种方法在实践中都表现出相同的“约束漂移”失败模式:对于惩罚方法,只要网络已经是可行的,违规项就不提供梯度。随后的训练步骤可能重新引入违规,而这些违规只有在出现后才能被纠正,导致重复漂移而非稳定满足。原始-对偶方法由于类似的结构性原因继承了约束漂移:在互补松弛条件下,乘子在可行区域为零,再次消除了约束梯度(第 2.3 节 (https://arxiv.org/html/2606.13803#S2.SS3))。两种方法的结果通常是训练模型中存在虚假的违规,这是一个实际挑战。在控制系统中,学习到的屏障证书除非是精确的,否则不提供任何保证(形式验证是一个开放的研究方向 (Dai et al., 2020 (https://arxiv.org/html/2606.13803#bib.bib11), 2021 (https://arxiv.org/html/2606.13803#bib.bib12); Edwards et al., 2024 (https://arxiv.org/html/2606.13803#bib.bib16)))。在量化金融中,即使存在轻微套利的隐含波动率曲面,对于任何下游定价和风险模型都是一个重大问题 (Gatheral and Jacquier, 2014 (https://arxiv.org/html/2606.13803#bib.bib20); Deschâtres, 2024 (https://arxiv.org/html/2606.13803#bib.bib15); Buehler et al., 2026 (https://arxiv.org/html/2606.13803#bib.bib5))。即使对于低维参数化方法,确保完全满足约束也是一个高影响力的工业挑战。

参见图注
图 1:第 4.1.1 节 (https://arxiv.org/html/2606.13803#S4.SS1.SSS1) 单调性测试案例中最后 500 个训练 epoch 的 ∂_x f^θ(x)。白色(空)区域表示违规(负导数),可行值用颜色映射表示。惩罚方法和拉格朗日方法表现出“约束漂移”;神经松弛变量保持稳定的约束轮廓。

为了克服在惩罚方法和原始-对偶方法中观察到的约束梯度消失问题,我们提出将主网络的约束轮廓与一个联合学习的有效目标联系起来,而不是仅仅惩罚其违规。记 f^θ 为主网络,令 c_θ := C[f^θ] : Ω → R^m 表示约束量。我们引入一个辅助神经网络 s^φ——经典约束优化中松弛变量的学习模拟——其输出通过适当的输出激活函数构造为非负,并提供约束空间中的有效目标。这两个网络联合训练,通过约束空间中的二次匹配损失来软性强制松弛变量形式:

C[f^θ](x) - s^φ(x) = 0,   s^φ(x) ≥ 0,   (1)

匹配项耦合了两个网络:s^φ 适应 c_θ 的数据驱动形状,同时 c_θ 被导向有效目标 s^φ。随着匹配残差缩小,c_θ 继承 s^φ 的正性,使得 f^θ 变得可行。关键是,由于 s^φ 是一个学习到的有限容量逼近,匹配残差通常不会完全消失,这在违规消失后仍保留约束空间梯度,防止约束轮廓漂移回违规状态。我们将 s^φ 称为*神经松弛变量*。在我们的实验中,神经松弛变量克服了我们在惩罚和原始-对偶方法中观察到的漂移失败模式(图 1 (https://arxiv.org/html/2606.13803#S1.F1))。我们识别出所提方法的另一个机制:神经松弛损失将 s^φ 的正则性传递给约束轮廓 c_θ(图 6 (https://arxiv.org/html/2606.13803#A4.F6)),这使得 s^φ 的架构成为该轮廓的一个明确、可控的归纳偏差。我们利用这个杠杆来约束频谱表现力强的主网络(包括 SIREN (Sitzmann et al., 2020 (https://arxiv.org/html/2606.13803#bib.bib45)) 和傅里叶特征 (Tancik et al., 2020 (https://arxiv.org/html/2606.13803#bib.bib50)));在固定网格设置中,这有助于在配置点之间保持满足的稳定性。

从结构上看,神经松弛变量在约束算子处分解了可行性问题。一旦轮廓 c_θ = C[f^θ] 形成,可行性就仅仅是其逐点非负性;难点在于通过 C 实现一个有效的轮廓。粗略地说,这是一个逆问题,通过构造求解它需要一个只能表示可行函数的架构,而这仅适用于少数基本约束类型。神经松弛变量规避了这一点:非负性在松弛侧被精确参数化,而将主网络的轮廓导向有效目标则留给联合训练。

##### 贡献

- • 我们提出*神经松弛变量*:一种软约束方法,引入非负辅助网络 s^φ,通过约束空间中的匹配损失与主网络联合训练。
- • 我们识别了惩罚方法和原始-对偶方法共有的漂移失败模式,通过图 1 (https://arxiv.org/html/2606.13803#S1.F1) 的可视化特征和一项消除其来源的消融实验(第 4.2 节 (https://arxiv.org/html/2606.13803#S4.SS2))支持,并表明神经松弛变量在数据驱动设置中克服了它。
- • 我们识别了从 s^φ 到 f^θ 的正则性传递作为约束轮廓的一个可控归纳偏差,使得使用频谱表现力强的架构(SIREN、傅里叶特征)进行约束学习成为可能。
- • 我们在合成单调性和凸性基准测试上展示了更强的约束满足性,并分析了在神经验证的数据无关认证任务上的神经松弛动态(FOSSIL Barr3)。
- • 作为主要应用,我们将神经松弛变量应用于隐含波动率曲面建模,获得了一个稳健的无套利生成模型,解决了一个高影响力的工业挑战。

## 2 背景与相关工作

相关工作的详细讨论见附录 B (https://arxiv.org/html/2606.13803#A2)。

### 2.1 问题设置

在有界域 Ω ⊂ R^d 上,我们从数据 D = {(x_i, y_i)}^N_{i=1} 学习一个神经网络 f^θ : Ω → R,受限于一个函数性的 m 维不等式约束:

C[f^θ](x) ≥ 0, 对于所有 x ∈ Ω,   (2)

其中 C[·] 是一个约束算子,将函数映射到约束量(导数、特征值或其他函数性质)。记 L_data(θ) 为数据拟合损失(例如,MSE 损失的 E_{(x,y)∼D}‖f^θ(x) - y‖^2)。

### 2.2 惩罚方法

惩罚方法是深度学习中强制约束的事实默认方法。它通过以下方式增强数据损失:

L_hinge,p(θ) = (1/p) E_{x∼U(Ω)} [ ‖ max(0, ε - C[f^θ](x)) ‖_p^p ],   (3)

其中 U(Ω) 是 Ω 上的均匀分布,p ≥ 1(通常 p=1 以鼓励稀疏违规模式),边界 ε > 0 鼓励严格满足约束,“hinge”表示使用正部函数计算约束残差。总损失变为 L(θ) := L_data(θ) + ρ L_hinge,p(θ),其中 ρ > 0 权衡惩罚项与数据损失。在网格 π = {x_j}^n_{j=1} 上,这离散化为应用于采样约束 C[f^θ](x_j) ≥ ε 的经典外部惩罚方法 (Nocedal and Wright, 2006 (https://arxiv.org/html/2606.13803#bib.bib34), 第 17 章)。这里,ρ 的水平控制*精确性*(是否极小点与约束最优重合),因此 ρ 在实践中是一个关键的调优参数。对于线性惩罚 (p=1),在足够大的有限 ρ 下可能达到精确性,而二次惩罚 (p=2) 通常仅在极限 ρ → ∞ 时精确,这就激发了在训练过程中增加 ρ 的计划。然而,这些考虑在深度学习实践中基本被忽视;Ramirez et al. (2025 (https://arxiv.org/html/2606.13803#bib.bib41)) 倡导原始-对偶方法作为替代,特别提到惩罚权重调优的负担。

### 2.3 原始-对偶方法

(2) 的*原始-对偶*或*拉格朗日*公式将非负乘子函数 λ : Ω → R^m_{≥ 0} 与约束相关联:

min_θ max_{λ(·) ≥ 0} L_data(θ) + E_{x∼U(Ω)} [ ⟨λ(x), ε - C[f^θ](x)⟩ ].   (4)

在网格 π = {x_j}^n_{j=1} 上,这离散化为每个网格点一个乘子向量 λ_j ∈ R^m_{≥ 0},等价于每个网格点和每个约束分量一个标量乘子。乘子向量上的*梯度下降-上升* (GDA) 是约束深度学习中的标准原始-对偶方案 (Ramirez et al., 2025 (https://arxiv.org/html/2606.13803#bib.bib41); Gallego-Posada et al., 2025 (https://arxiv.org/html/2606.13803#bib.bib19))。*增广拉格朗日*方法向 (4) 添加二次违规惩罚,凸化局部鞍点并稳定 GDA (Platt and Barr, 1987 (https://arxiv.org/html/2606.13803#bib.bib37));基于控制器的乘子更新提供了替代方案 (Stooke et al., 2020 (https://arxiv.org/html/2606.13803#bib.bib49); Sohrabi et al., 2024 (https://arxiv.org/html/2606.13803#bib.bib47))。当 Ω 是高维的或由条件变量扩展时,为每个约束实例化一个标量是不切实际的,这激发了将 λ 直接参数化为网络 λ_φ : Ω → R^m_{≥ 0},即*神经乘子*。Narasimhan et al. (2020 (https://arxiv.org/html/2606.13803#bib.bib32)) 在高度约束的分类中引入神经乘子,其中乘子由约束特征向量索引(在我们的设置中直接类似于域坐标 x)。他们研究了 λ_φ 的容量如何扭曲约束问题:欠参数化模型有效执行约束集的平均变换而非单个约束。

### 2.4 架构约束

最后,通过明确的架构选择可以保证可行性。输入凸神经网络 (Amos et al., 2017 (https://arxiv.org/html/2606.13803#bib.bib3)) 通过非负权重和凸激活函数强制凸性;约束单调神经网络 (Runje and Shankaranarayana, 2023 (https://arxiv.org/html/2606.13803#bib.bib42); Sartore et al., 2025 (https://arxiv.org/html/2606.13803#bib.bib44)) 通过配对的权重符号限制和递增激活函数保证单调性。

## 3 方法

参见图注
图 2:使用正弦表示网络 (SIREN) 和固定约束网格的单调回归实验。拟合网络 f^θ 与带噪声的观测值(左)和去

相似文章

通过 L₀ 正则化学习稀疏神经网络

OpenAI Blog

OpenAI 提出了一种实用的神经网络 L₀ 正则化方法,在训练过程中促使权重精确变为零,实现网络剪枝以提高速度和泛化性能。该方法使用随机门控机制,引入硬具体分布(hard concrete distribution)使得不可微的 L₀ 范数优化能够通过梯度下降法求解。

输入凸神经网络训练的一种提升方法

arXiv cs.LG

提出了一种用于训练输入凸神经网络(ICNN)的“提升”方法,该方法使用无约束的超网络生成非负的层间权重,从而软化损失景观并避免梯度衰减,相比投影梯度下降和softplus重参数化,实现了更低的测试损失。