量子退火增强强化学习用于精确剩余使用寿命预测

arXiv cs.LG 论文

摘要

本文提出了一种量子退火增强的Q-learning框架,用于剩余使用寿命预测,利用D-Wave系统求解QUBO公式以进行动作选择。在NASA C-MAPSS和预测维护数据集上,它优于经典和量子基线。

arXiv:2606.18503v1 公告类型:新发布 摘要:剩余使用寿命(RUL)估计是预测性维护的核心,因为计划外故障的成本可能远高于资产本身。统计退化模型忽略了实际系统的强非线性,而数据驱动模型在高维、非凸搜索空间中往往收敛到次优解。我们提出了一种量子退火增强的Q-learning(QAQL)框架,将量子退火的采样行为与Q-learning的顺序决策相结合。每个Q值更新被编码为一个小的二次无约束二元优化(QUBO)问题,其基态即为贪婪动作;退火器并非作为确定性优化器,而是在多次读取中返回近最优动作的分布,这种随机动作选择提供了探索,从而抑制了在非线性退化轨迹上的过早收敛。QUBO使用小嵌入在D-Wave Advantage系统上求解,退火器被嵌入到强化学习循环中,而非在训练后附加。我们在两个公开基准上验证了QAQL:NASA C-MAPSS涡扇发动机数据集和一个设备群预测性维护数据集。在多次独立运行和六种误差指标上平均,QAQL优于本研究中考虑的经典和量子基线,且具有统计显著性。结果表明,量子退火是一种实用的(而不仅仅是理论上的)优化器,可用于工业预测性维护应用的强化学习循环中。
查看原文
查看缓存全文

缓存时间: 2026/06/18 05:43

# 量子退火增强的强化学习用于精确剩余使用寿命预测 来源:https://arxiv.org/html/2606.18503 ###### 摘要 剩余使用寿命估计是预测性维护和可靠性工程的核心,因为航空发动机或联网工业设备意外故障的成本可能远超资产本身的价值。传统的统计退化模型无法捕捉真实系统的高度非线性行为。数据驱动的机器学习模型提高了精度,但在高维和非凸搜索空间中容易收敛到次优解。为解决这些局限性,本研究提出一种量子退火增强的Q学习框架,将量子退火的采样行为与Q学习的序列决策结构相结合。每个Q值更新被编码为一个小的二次无约束二元优化问题,其基态是当前价值估计下的贪婪动作;退火器并非充当确定性优化器,而是在多次读取中返回一个近最优动作的分布,这种随机动作选择提供了探索能力,帮助智能体避免在高度非线性退化轨迹上过早收敛。该QUBO在D-Wave Advantage系统上使用小嵌入求解,每次Q值更新的退火时间为20μs,读取次数为1000次。该框架在两个公开基准数据集上进行了验证,包括NASA C-MAPSS涡扇发动机和设备群预测性维护数据集。在30次独立运行的平均结果中,QAQL在C-MAPSS FD001、FD002、FD003和FD004上分别取得了435.28±12.4、593.69±50.22、549.54±14.24和880.59±260.68的MSE,在预测性维护数据集上取得了126.28±4.1的MSE,在本研究所考虑的六个误差指标上均优于经典和量子基线方法。结果表明,量子退火在工业应用的强化学习循环中,是一种可用而非仅仅是理论上的优化器。

a卡纳塔克邦中央大学,印度古尔伯加,[email protected] (https://arxiv.org/html/2606.18503v1/mailto:[email protected]); b安娜大学工程学院,印度蒂鲁吉拉伯利,[email protected] (https://arxiv.org/html/2606.18503v1/mailto:[email protected]); cAIONOS India Pvt Ltd,印度海德拉巴,[email protected] (https://arxiv.org/html/2606.18503v1/mailto:[email protected]); d印度国家理工学院蒂鲁吉拉伯利,[email protected] (https://arxiv.org/html/2606.18503v1/mailto:[email protected])

亮点
- •提出基于量子退火增强的Q学习(QAQL)用于RUL预测。
- •将贪婪动作步骤重构为QUBO,并在D-Wave Advantage QPU上采样。
- •退火器采样增加了探索性,抑制了经典RL在非线性退化上的过早收敛。
- •在统一协议下评估的14种经典和量子基线上,六个误差指标均表现更优(p<0.01p<0.01)。

关键词:剩余使用寿命;预测性维护;强化学习;Q学习;量子退火;量子机器学习

## 1 引言

一架波音767上的涡扇发动机吸入了一片风扇叶片,该叶片已在大约1200个飞行循环中经历了未被检测到的疲劳裂纹(Yang et al., 2025 (https://arxiv.org/html/2606.18503#bib.bib93))。这一事件凸显了航空航天系统中预测性维护和早期故障检测对于防止灾难性发动机故障和确保运行安全的关键重要性(Wang et al., 2025 (https://arxiv.org/html/2606.18503#bib.bib94))。飞机安全着陆,但非计划拆卸使运营商损失了近140万美元的营收和维修费用,并导致飞机停飞11天。行业报告显示,全球非计划停机成本每年超过1.5万亿美元(Magadán et al., 2024 (https://arxiv.org/html/2606.18503#bib.bib66); Liu et al., 2024 (https://arxiv.org/html/2606.18503#bib.bib61)),而降低这一数字的最有效杠杆之一,就是准确估计一个部件在需要从机翼、生产线或电网中移除之前还能持续运行多长时间。这个量称为剩余使用寿命(RUL),好的估计与差的估计之间的差距,就是预测性维护与反应性维护之间的差距。

早期的RUL估计器基于物理模型(Tang et al., 2026 (https://arxiv.org/html/2606.18503#bib.bib95))。它们使用Wiener过程、Gamma过程和Paris-Erdogan裂纹扩展定律,将封闭形式的退化曲线拟合到少量监测变量上。这些模型可解释性强,但在现代资产上表现不佳——这些资产配备了数十个相关传感器,在多种飞行状态或负载循环下运行,且退化路径是非单调的。业界随后转向数据驱动方法。卷积、递归和基于注意力的深度网络目前主导着公开的RUL基准测试(Ferreira and Gonçalves, 2022 (https://arxiv.org/html/2606.18503#bib.bib10); Magadán et al., 2024 (https://arxiv.org/html/2606.18503#bib.bib66)),在NASA C-MAPSS涡扇数据集上,它们已将FD001的RMSE从2014年的30个循环以上降低到如今的约11个循环。

该领域仍面临两个局限性。首先,深度模型需要大量标记的运行至失效轨迹,而在实践中,大多数现场设备在真正失效之前就被移除,因此这类数据稀缺。其次,涉及的损失曲面高度非凸,基于梯度的优化器通常收敛到符合平均退化模式但忽略了操作上最重要的异常失效模式长尾的策略(Ferreira and Gonçalves, 2022 (https://arxiv.org/html/2606.18503#bib.bib10))。

另一条互补的研究路线将RUL视为序列决策问题,并使用强化学习(RL)直接从传感器历史中学习维护感知的价值函数(Shakya et al., 2023 (https://arxiv.org/html/2606.18503#bib.bib20); Hao et al., 2024 (https://arxiv.org/html/2606.18503#bib.bib63))。Q学习是自然的起点,因为它无模型,并通过一步转移更新表格或参数化的Q(s,a)函数(Evangelidis et al., 2024 (https://arxiv.org/html/2606.18503#bib.bib60))。其缺点众所周知:在工业退化数据的高维、非平稳状态空间中,经典Q学习收敛缓慢、方差大,并且强烈倾向于陷入局部最优策略,而通常的ε-贪婪调度只能缓慢地从中探索出来。因此,瓶颈在于驱动价值更新的探索,而非更新本身的算术运算。

尽管RUL估计可以表述为监督回归问题,但实际预测性维护涉及沿退化轨迹收集的序列观测值,而非独立样本。在这种情况下,强化学习具有两个优势。首先,时序差分学习沿退化轨迹向后传播信息,使得未来的退化证据能够影响早期的健康状态估计。其次,RL自然地适应面向维护的奖励函数,可以纳入与提前和滞后预测相关的不对称成本。因此,采用RL并非因为监督学习无法预测RUL,而是因为它提供了一个轨迹感知的学习框架,可以自然地扩展到维护决策优化。

量子退火提供了驱动该步骤的不同方式。可编程退火器(如D-Wave Advantage系统)拥有5,640个超导量子比特,排列成Pegasus拓扑,通过将系统哈密顿量从横向场混合器绝热演化到问题哈密顿量(其基态编码最优解)来求解二次无约束二元优化(QUBO)问题(Yarkoni et al., 2022 (https://arxiv.org/html/2606.18503#bib.bib16); Khan and Robles-Kelly, 2020 (https://arxiv.org/html/2606.18503#bib.bib13))。对我们的目的至关重要的一点是,单次退火并非确定性求解器:每次读取都返回一个样本,量子隧穿和叠加塑造了这些样本的分布。本文提出的问题是,这种采样行为(而非任何一次性最优性保证)能否有效地塑造RL更新核心中的重复动作选择。我们的假设是,只要时序差分(TD)目标被编码为退火器实际可解的QUBO,那么这种采样行为就能够起到作用。

我们提出量子退火增强的Q学习(QAQL),这是一个混合框架,其中每次Q值更新中的贪婪动作选择被重构为一个小的QUBO,其基态是当前Q表下价值最高的动作。由于退火器被多次查询,它返回一个近最优动作的分布,而非单一确定性选择;这种采样将量子退火与学习动态耦合起来,并为更新所需的探索提供了来源。从能量最低的样本中解码出所选动作,通过标准TD规则应用于经典Q表,并用于输出RUL预测。因此,退火器并非训练后附加上去的通用黑箱优化器;它被编织到RL循环中,并在每一步面临特定于问题的哈密顿量。

QAQL中量子退火的目标并非为小型argmax操作提供计算加速。相反,退火器充当集成在RL更新过程中的随机低能量采样器。与确定性贪婪选择不同,退火器在多次读取中返回一个近最优动作的分布。这种采样行为增加了价值更新期间的探索多样性,并减少了收敛到局部最优策略的过早性。因此,QAQL的贡献在于利用量子生成的采样动态,而非声称对经典优化有计算加速。

研究问题。
- •RQ1:一步TD更新的QUBO编码是否能让量子退火替代Q学习内部的经典Q值优化步骤,并从而提高RUL预测精度?
- •RQ2:在表征真实工业数据的高维、非凸退化环境中,所提出的混合方法是否比经典RL收敛更快并得到更优策略?
- •RQ3:QAQL在不同运行状态和退化模式下的鲁棒性如何?与标准基准上的近期经典和量子基线相比表现如何?

研究目标。
- •设计一种Q学习更新方式,使得TD误差最小化被重构为与当前量子退火硬件兼容的QUBO。
- •在D-Wave Advantage QPU上端到端实现所提出的QAQL框架,并将其与工业传感器数据的经典预处理集成。
- •在两个公开基准上,将QAQL与七个经典和七个量子RUL基线的平衡集合进行评估,包括统计显著性检验和运行时比较。

研究成果。
- •将贪婪动作步骤编码为QUBO,使得量子退火能够将基于采样的探索注入价值更新中,从而在两个基准上均提高了RUL预测精度(RQ1)。
- •与经典RL基线相比,QAQL在更少的回合中收敛,并产生方差更低的策略,与退火器采样提供的更广泛探索一致(RQ2)。
- •在三十次独立运行和六个误差指标上,QAQL优于本研究考虑的所有经典和量子基线,且改进具有统计显著性(p<0.01p<0.01,配对Wilcoxon符号秩检验)(RQ3)。

论文其余部分组织如下。第2节 (https://arxiv.org/html/2606.18503#S2) 综述了经典、基于RL和量子方法在RUL预测方面的相关工作。第3节 (https://arxiv.org/html/2606.18503#S3) 形式化了QAQL框架,包括TD更新的QUBO编码以及与D-Wave Advantage QPU的集成。第4节 (https://arxiv.org/html/2606.18503#S4) 报告了在C-MAPSS FD001和预测性维护数据集上的实验,包括消融研究、运行时测量和显著性检验。第5节 (https://arxiv.org/html/2606.18503#S5) 总结并概述了向门模型量子RL的扩展。

## 2 文献综述

Jiao等人(2023 (https://arxiv.org/html/2606.18503#bib.bib21))将LightGBM架构与电化学建模相结合,用于估计各种驾驶条件下电池的RUL。然而,该模型的局限性在于需要大量的数据预处理,这限制了其在实际应用中的实用性。Tian等人(2023 (https://arxiv.org/html/2606.18503#bib.bib28))提出了一种技术,利用Kullback–Leibler散度来评估数据分布差异,有效利用源信息来提高对未见目标领域的泛化能力。然而,该框架缺乏有效的特征工程,并且没有结合物理机制的混合模型。Hou等人(2026 (https://arxiv.org/html/2606.18503#bib.bib92))提出了一种轻量级变量依赖感知卷积神经网络(LVDACNN)用于RUL预测。该模型通过嵌入方案增强变量关系学习,并利用通道注意力抑制无关信息,以较低的计算成本实现精确预测。然而,其性能在高度非线性退化模式下可能会下降,并且需要仔细设计变量依赖表示。Wilberforce等人(2023 (https://arxiv.org/html/2606.18503#bib.bib30))开发了一种集成的卷积双向RNN用于估计燃料电池的RUL,但该模型的有效性非常有限。ML和DL模型需要大量标记数据进行训练,存在过拟合挑战,难以解释预测结果,并且难以泛化到未见条件。这些因素使得它们在运行条件可能动态变化的真实世界环境中可靠性降低。Xu等人(2023 (https://arxiv.org/html/2606.18503#bib.bib22))实现了一种用于精确RUL预测的注意力方法,消除了RNN或CNN模块的使用。该模型通过解决现有挑战来识别相关数据特征。然而,它缺乏评估特征选择影响的能力,也无法探索全局注意力内的信息聚合。Pan等人(2022 (https://arxiv.org/html/2606.18503#bib.bib75))开发了一种融合模型,结合了基于迁移学习的LSTM和粒子滤波(PF),用于锂离子电池RUL估计。该模型增强了在不同运行条件下的泛化能力,PF提供了超出单点估计的不确定性量化。然而,混合框架增加了模型复杂度和计算负担,其性能取决于源域训练数据的质量。Sun等人(2022 (https://arxiv.org/html/2606.18503#bib.bib76))实现了一种使用混合双注意力LSTM网络的交流接触器RUL预测方法。该模型提取退化特征,并使用特征和时间注意力机制检测拐点,以提高预测精度。该方法

相似文章

多智能体强化学习中的量子优势

arXiv cs.LG

本文提供了实证证据,表明量子纠缠在多智能体强化学习中提供了可测量的优势,通过CHSH游戏和协作导航任务展示了相对于经典基线的性能提升。

离线到在线强化学习的自适应 Q 分块

arXiv cs.LG

本文介绍了自适应 Q 分块(AQC),这是一种强化学习方法,能够动态选择动作分块大小,以平衡反应式控制与长期规划。该方法在 OGBench 和 Robomimic 上取得了最先进的结果,提升了大规模 VLA 模型在机器人任务中的性能。

Reversal Q-Learning

arXiv cs.LG

本文提出了Reversal Q-Learning(RQL),一种离线强化学习算法,它利用扩展马尔可夫决策过程框架和技术训练流策略,无需随时间反向传播即可实现离策略强化学习。该算法在具有挑战性的模拟机器人任务上达到了最先进的性能。