牛顿之灯:一种用于微调交流潮流热启动模型的强化学习框架
摘要
本文介绍了牛顿之灯,这是一种强化学习框架,用于微调热启动模型,以更高效地解决交流潮流问题,尤其是在接近电压崩溃的情况下。
arXiv:2605.11102v1 公告类型:新文章
摘要:神经热启动可以显著减少求解交流潮流问题所需的牛顿-拉夫逊迭代次数,但现有的监督学习方法在接近电压崩溃的重负载实例上泛化能力较差。我们证明了牛顿-拉夫逊迭代次数下界依赖于热启动误差的方向而非其大小,并证明作为推论,当潮流雅可比矩阵的最小奇异值减小时,该下界变得无意义,从而识别出监督回归在鞍结分岔附近的失效模式。受此分析启发,我们引入了牛顿之灯,这是一种微调流程,将组相对策略优化与在学习基模型预测扰动上训练的奖励模型相结合,使用迭代次数本身作为监督信号。在IEEE 118节点、GOC 500节点和GOC 2000节点基准测试中,牛顿之灯是唯一在所有测试快照上都收敛的方法,同时达到了最小的平均迭代次数。
查看缓存全文
缓存时间: 2026/05/13 06:30
# 牛顿之灯:用于微调交流潮流热启动模型的强化学习框架
来源:https://arxiv.org/html/2605.11102
Shourya Bose, Helgi Hilmarsson<sup>1</sup>, Dhruv Suri<sup>1</sup>
Pravah \{shourya.bose, helgi.hilmarsson, dhruv.suri\}@pravah.com
###### 摘要
神经热启动可以显著减少求解交流潮流(AC Power Flow, ACPF)问题所需的牛顿-拉夫逊(Newton-Raphson, NR)迭代次数,但现有的监督学习方法在接近电压崩溃的重负载实例上泛化能力较差。我们证明了一个依赖于热启动误差方向而非其大小的 NR 迭代次数下界,并作为推论指出,随着潮流雅可比矩阵最小奇异值的缩小,该界变得失效,从而识别出监督回归在鞍结分岔(saddle-node bifurcation)附近的失效模式。受此分析启发,我们引入了**牛顿之灯(Newton’s Lantern)**,这是一个微调流水线,结合了组相对策略优化(group relative policy optimization)和一个基于基础模型预测扰动训练的奖励模型,直接使用迭代次数作为监督信号。在 IEEE 118 节点、GOC 500 节点和 GOC 2000 节点基准测试中,牛顿之灯是唯一在所有测试快照上都能收敛的方法,并且实现了最小的平均迭代次数。
## 1 引言
电网对于向全球数十亿人提供可靠的电力供应至关重要。电网运行的一个关键组件是交流潮流(ACPF)问题(Stott, 1974),它确定了系统的稳态工作点。ACPF 的核心是一组描述电网的非线性方程组 $g_D(x)$ 的求根问题,其中 $x$ 代表系统状态,$D$ 代表电网特性的单个快照。在此,$x$ 包含待确定的节点电压幅值和相角,而 $D$ 封装了电网的物理和操作参数。传统上使用牛顿-拉夫逊(NR)算法(Tinney and Hart, 1967)来解决这个问题。
电力公司和独立系统运营商的一个重要目标是为 NR 算法确定一个良好的起始点 $x_0$,使其以最少的迭代次数收敛。传统接受的解决方案是*平坦启动(flat start)*(Tinney and Hart, 1967),即将所有电压幅值设为 1,相角设为 0;或者是*直流启动(DC start)*,即使用线性直流潮流生成相角,同时保持电压幅值为 1。然而,随着电网规模(以及由此产生的 ACPF 问题)的增长,这两种方法都可能无法实现收敛。
一类解决方案通过修改 NR 算法本身来改善其收敛特性(Iwamoto and Tamura, 1981),但当收敛区域远离平坦启动点时,这些方法会失效。第二类解决方案,也是本文所涵盖的范围,是利用 $g_D(\cdot)$ 的结构或对应于不同 $D$ 实例的解决方案数据集来生成良好的 $x_0$。在后一类中,传统的首选分析方法是*连续(continuation)*潮流,它通过从相关“简单”实例 $D$ 的解追踪一条同伦路径,来获得“困难”实例 $D'$ 的解(Ajjarapu and Christy, 1992; Mehta et al., 2016)。然而,最近人们对使用基于学习的方法来近似从预解 ACPF 实例数据集中的映射 $D \mapsto x_0$ 的兴趣日益浓厚。虽然监督设置下已有大量工作(详见 Khaloie et al., 2025 中的详细综述),但将此目的应用于强化学习(RL)的情况(Yan et al., 2025)却很少见。令人失望的是,ACPF 求解器在迭代求解过程中会产生丰富的轨迹,这些轨迹可用于在无需显式标签的情况下提高模型性能。
另一个研究不足且直接关系到该问题中 RL 必要性的方面是,当电网接近其*电压崩溃(voltage collapse)*点时,收敛区域的收缩现象(Sauer and Pai, 1990)。这意味着在标称条件下运行的电网上训练的热启动模型无法泛化到上述情况。我们特别关注现有文献中的三个缺陷:
1. **监督式热启动模型使用 ACPF 解作为目标**:大量关于 ACPF 监督式热启动模型的先前文献(Okhuegbe et al., 2024a, b; Diehl, 2019)使用现有数据集中的精确解 $x^*$ 作为模型的目标。如后文所示,当单位向量 $\frac{\hat{x}^* - x^*}{\|\hat{x}^* - x^*\|}$ 指向某些方向时,这会导致较差的热启动性能,其中 $\hat{x}^*$ 是模型预测值。
2. **未考虑接近电压崩溃的重负载系统**:大多数用于 ACPF 的机器学习数据集是通过均匀扰动轻负载工作点生成的,因此整个数据集都处于电压稳定范围内。最近的 PF$\Delta$ 基准测试(Rivera et al., 2025)是一个显著的例外,它使用连续方法包含接近崩溃的案例,但其中训练的模型并未用于热启动。这导致关于热启动模型泛化能力的文献存在空白。
3. **强化学习利用不足**:据我们所知,只有两项先前工作将 RL 应用于改善 ACPF 收敛性:Yan et al. (2025) 修改了每个 NR 步骤,而 Kaseb et al. (2025) 需要一个量子增强的 RL 环境。两者均未产生一种即插即用的热启动模型,该模型仅生成最小化 NR 迭代次数的 $x_0$。
为了克服这些缺陷,我们引入了**牛顿之灯(Newton’s Lantern)**,这是一个用于微调热启动模型的 RL 框架。这些模型首先在远离电压崩溃点的电压稳定工作点数据集中进行预训练,随后在包含接近崩溃案例的困难保留数据集上进行微调。这种设置代表了实际的电网运行条件,其中过载和电压崩溃仅在极端天气和需求激增等罕见不利事件中发生(Khazeiynasab and Qi, 2021)。
我们的具体贡献如下:
1. **表征 ACPF 目标的缺陷**:我们提供了一个理论结果,表明 NR 迭代次数取决于以 ACPF 解 $x^*$ 为监督目标训练的热启动模型的预测误差方向。附录 [FUTURE] 中分析了一个代表性的 2 节点示例。
2. **考虑重负载系统**:上述结果表明,在电压崩溃点附近,收敛区域的各向异性导致 NR 迭代次数在某些方向上严重增加。我们通过实验证明,在电压稳定案例上训练的热启动模型无法产生使 NR 收敛的起始点,而在电压崩溃案例的保留集上进行监督微调(SFT)可以恢复收敛性。
3. **利用强化学习改善收敛性**:我们的框架**牛顿之灯**使用具有负迭代次数奖励的组相对策略优化(GRPO),在电压崩溃保留集上微调预训练的热启动模型。实验表明,它在多个电网示例上优于 SFT,以及带有神谕值函数的近端策略优化(PPO)基线。
#### 符号说明
$\mathbb{R}^n$ 表示 $n$ 维欧几里得空间,$S^{n-1} \stackrel{\Delta}{=} \{v \in \mathbb{R}^n : \|v\|=1\}$ 表示单位球面。除非出现显式下标,所有范数 $\|\cdot\|$ 均为欧几里得范数。类 $C^3$ 收集具有连续三阶导数的函数。对于向量值映射 $g: \mathbb{R}^n \to \mathbb{R}^m$,Hessian $\nabla^2 g$ 是一个形状为 $m \times n \times n$ 的张量,$\nabla^2 g[v,v] \in \mathbb{R}^m$ 是第 $\ell$ 个条目为 $\sum_{i,j} v_i v_j \, \partial_i \partial_j \, g_\ell$ 的向量。快照 $D$ 处的 ACPF 残差为 $g_D: \mathbb{R}^{2N} \to \mathbb{R}^{2N}$,其雅可比矩阵为 $J_D = \partial g_D / \partial x$,Hessian 矩阵为 $H_D = \nabla^2 g_D$。$g_D(x)=0$ 的解记为 $x^*$,模型的预测记为 $\hat{x}^*$,NR 热启动记为 $x_0$。矩阵 $M$ 的最小奇异值为 $\sigma_{\min}(M)$。
## 2 背景
### 2.1 交流潮流
令 $\mathcal{G}=\{\mathcal{N},\mathcal{E}\}$ 为一个拥有 $N \stackrel{\Delta}{=} \|\mathcal{N}\|$ 个节点的电力网络。ACPF 残差 $g_D(x) \stackrel{\Delta}{=} [\Delta P^\top \, \Delta Q^\top]^\top$ 由节点失配量给出:
$$
\begin{aligned}
\Delta P_i &= P_i^{\text{spec}} - V_i \sum_{j \in \mathcal{N}} V_j \left( G_{ij} \cos(\theta_i - \theta_j) + B_{ij} \sin(\theta_i - \theta_j) \right), \\
\Delta Q_i &= Q_i^{\text{spec}} - V_i \sum_{j \in \mathcal{N}} V_j \left( G_{ij} \sin(\theta_i - \theta_j) - B_{ij} \cos(\theta_i - \theta_j) \right),
\end{aligned}
$$
其中 $V_i, \theta_i$ 是节点 $i$ 的电压幅值和相角,$P_i^{\text{spec}}, Q_i^{\text{spec}}$ 是指定的有功和无功注入,$G_{ij}, B_{ij}$ 是节点导纳矩阵的电导和电纳条目。电网快照 $D$ 收集了这些导纳、指定注入以及每个节点的节点类型标签(PQ、PV 或平衡节点),这固定了四元组 $(V_i, \theta_i, P_i^{\text{spec}}, Q_i^{\text{spec}})$ 中的两个变量:PQ 节点固定 $(P, Q)$,PV 节点固定 $(P, V)$,平衡节点固定 $(V, \theta)$。因此,自由未知量构成了有效维度为 $N_{\text{PV}} + 2N_{\text{PQ}}$ 的 NR 系统,其中 $N_{\text{PV}}, N_{\text{PQ}}$ 分别计数相应的节点类型。遵循 ACPF 软件和热启动模型文献中的标准惯例,我们将状态表示在包含所有节点电压和相角的过参数化空间 $x \in \mathbb{R}^{2N}$ 中;在调用 NR 之前,由 $D$ 固定的条目会被覆盖。
### 2.2 NR 方法与电压崩溃
NR 方法是一种迭代求根算法,从初始点 $x_0$ 开始,执行如下步骤:
$$
x_{k+1} = x_k - [J_D(x_k)]^{-1} g_D(x_k),
$$
并在迭代 $k(x_0, \tau) \stackrel{\Delta}{=} \inf \{k \geq 1 : \|x_k - x_{k-1}\| < \tau\}$ 时终止,其中 $\tau$ 是预定义的终止容差。此处,$J_D(x) \stackrel{\Delta}{=} \partial g_D(x) / \partial x$ 是残差的雅可比矩阵,通常称为*潮流雅可比(power-flow Jacobian)*。
*电压崩溃*指的是这样一种现象:随着电网负荷的增长,节点电压逐渐下降,直到 ACPF 完全失去解,标志着稳态稳定性极限(Sauer and Pai, 1990)。给定快照 $D$ 是否靠近此极限本身是 $D$ 的一个属性,因为它编码的负荷、发电调度和拓扑决定了系统运行距离崩溃有多近。此极限的特征在于平衡点处潮流雅可比矩阵的奇异性。当 $D$ 接近崩溃条件时,最小奇异值 $\sigma_{\min}(J_D(x^*))$ 缩小至零,并广泛用作电压不稳定性的接近度指标(Tiranuchit and Thomas, 1988)。图 1 在 IEEE 14 节点系统上说明了这一点。随着负荷因子 $\lambda$ 接近 NR 方法停止收敛的分岔点,最小节点电压和 $\sigma_{\min}(J_D(x^*))$ 均坍缩至较小值。图 1(c) 中的等值线进一步揭示,标称负荷周围的收敛盆地具有高度*各向异性(anisotropic)*。沿 $(P, Q)$ 中某些方向的 NR 迭代次数增长比其他方向快得多,在发散边界附近,收敛盆地收缩成狭窄的舌状区域。这种由崩溃附近 $J_D$ 的奇异结构驱动的方向敏感性,将在随后的分析中发挥核心作用。
> **图 1 标题**:IEEE 14 节点系统:随着负荷因子 $\lambda$ 均匀缩放标称负荷,电压崩溃的指标。
> * (a) 最小电压随负荷缩放因子 $\lambda$ 变化的轨迹。
> * (b) $\sigma_{\min}(J_D(x^*))$ 随负荷缩放因子 $\lambda$ 变化的轨迹。
> * (c) 关键节点标称点周围对称的 $(P, Q)$ 负荷值网格上 NR 收敛的迭代次数。
## 3 收敛各向异性与距离损失的失效
用于 ACPF 的监督式热启动模型以 $x^*$ 作为回归目标进行训练(Khaloie et al., 2025; Okhuegbe et al., 2024a, b; Diehl, 2019),隐含假设是较小的 $\|\hat{x}^* - x^*\|$ 会产生较少的 NR 迭代次数。这一假设预设了 $x^*$ 周围的收敛区域是各向同性的,而图 1(c) 以及关于潮流分形的已有文献(Thorp and Naqavi, 1989)表明事实并非如此。我们通过一个依赖于热启动误差方向而非其大小的 NR 迭代次数下界来量化这种各向异性。我们将热启动误差写为极坐标形式 $e_0 \stackrel{\Delta}{=} x_0 - x^*$,即 $e_0 = \rho v$,其中 $\rho \stackrel{\Delta}{=} \|e_0\|$ 且 $v \stackrel{\Delta}{=} e_0 / \rho \in S^{2N-1}$。牛顿法要求 $g_D$ 的正则性……相似文章
用于守恒律的稳健基础模型:通过循环视觉转换器将上下文注入通量神经算子
本文提出了一种新架构,将 Flux 神经算子与循环视觉转换器相结合,作为求解守恒律的基础模型。该模型在无需显式获取控制方程的情况下,在多种保守系统中展示了稳健的泛化能力和长期预测能力。
@aigclink: 微软最新开源了一个面向电力系统的AI基础模型:GridSFM,用来加速电力行业里交流最优潮流计算的研究 GridSFM用图神经网络近似AC-OPF求解,把电网当作一张图,直接预测近似最优运行点,再作为传统精确求解器的热启动初值,加速收敛 …
微软开源了面向电力系统的AI基础模型GridSFM,利用图神经网络近似AC-OPF求解,跨拓扑通用,能作为精确求解器的热启动实现1.45倍加速,并具备可行性分类能力。
基于频谱图神经网络强化学习的自愈智能电网故障检测
本文提出了一种频谱图强化学习框架,用于自愈智能电网的故障检测和电力恢复,在IEEE测试系统上实现了接近最优的实时性能。
LANTERN:一种结合大语言模型增强、基于经验门控推理网络的神经符号迁移方法
本文介绍了 LANTERN,这是一个用于强化学习中多源神经符号迁移的框架,它利用大语言模型生成任务自动机,并结合自适应门控机制来提高样本效率。
@MSFTResearch: 介绍GridSFM,一个能够毫秒级预测交流最优潮流的小型基础模型,提升效…
Microsoft推出GridSFM,这是一个小型基础模型,能够在毫秒内预测交流最优潮流,显著提高电网效率并降低拥堵成本。