基于自编码器和代理驱动训练的冷原子储层计算在医学图像分类中的应用

arXiv cs.LG 2026/05/11 04:00 论文

摘要

本文提出了一种结合中性原子储层计算和自编码器的混合量子-经典管道，用于医学图像分类，特别是息肉检测。该研究通过引入代理模型解决了量子测量不可微分的问题，从而实现了端到端训练。

arXiv:2605.06727v1 公告类型：新论文摘要：我们介绍了一种基于中性原子储层计算的混合量子-经典管道，用于医学图像分类，重点关注息肉检测这一二分类任务。为了有效处理高维数据，我们集成了引导式自编码器。该管道能够学习图像数据的紧凑且具有判别性的特征表示，这些表示也非常适合量子储层计算。此类系统面临的一个关键挑战是量子测量的不可微分性，这为传统训练造成了“梯度屏障”。我们通过引入可微分的代理模型来模拟量子层，从而克服这一障碍，实现整个系统的端到端反向传播。这种引导式训练过程联合优化了分类精度和自编码器的图像重建保真度。学习到的潜在表示被编码为里德堡哈密顿量中的脉冲失谐参数，随后通过期望值获得量子嵌入。这些嵌入随后被输入到线性分类器中。我们的仿真结果表明，该方法优于一些使用主成分分析（PCA）或无引导自编码器的传统方法。我们还进行了消融研究，以评估各种量子参数和训练参数的影响，证明了我们提出的管道在当前含噪声中等规模量子（NISQ）时代下，在真实世界医学成像应用中的鲁棒性和灵活性。

查看原文

查看缓存全文

缓存时间: 2026/05/11 06:43

# 使用自编码器和代理驱动训练的冷原子储层计算进行医学图像分类
来源: https://arxiv.org/html/2605.06727
Nuno Batista$^1$, Ana Morgado$^1$, Oscar Ferraz$^1$, Sagar Silva Pratapsi$^3$, Jorge Lobo$^2$, and Gabriel Falcao$^1$
$^1$Instituto de Telecomunicações, Dept. of Electrical and Computer Engineering, University of Coimbra, Portugal
$^2$ISR - Institute of Systems and Robotics, Dept. of Electrical and Computer Engineering, University of Coimbra, Portugal
$^3$CFisUC, Department of Physics, University of Coimbra, Portugal
Email: {nuno.batista, ana.morgado, oscar.ferraz, gff}@co.it.pt, [email protected], [email protected]
这项工作得到了 FCT - Fundação para a Ciência e Tecnologia, I.P. 的支持，项目编号为 UID/50008/2023 IT, UIDB/04564/2020, UIDP/04564/2020, 2022.06780.PTDC, and 2023.14860.PEX (Q-Bet)，DOI 标识符分别为 10.54499/UID/50008/2023, 10.54499/UIDB/04564/2020, 10.54499/UIDP/04564/2020, 10.54499/2022.06780.PTDC, and 10.54499/2023.14860.PEX。该项目还得到了 Open Quantum Institute (OQI) 的资助，并与 Centro de Estudos Sociais (CES)、University of Coimbra (UC) 以及 Instituto de Telecomunicações (IT) 合作开展。OQI 本身是一项由 CERN 主办、诞生于 GESDA 并由 UBS 支持的项目。（通讯作者：Nuno Batista）

###### 摘要

我们介绍了一种基于中性原子储层计算的混合量子-经典管道，用于医学图像分类，重点解决息肉检测的二分类任务。为了有效应对高维度问题，我们集成了引导式自编码器。该管道学习图像数据的紧凑且具有高判别力的表示，这些表示也非常适合量子储层计算。此类系统的一个关键挑战是量子测量的不可微性，这为常规训练造成了“梯度障碍”。我们通过引入一个可微的代理模型来模拟量子层，从而克服这一障碍，实现通过整个系统的端到端反向传播。这种引导训练过程联合优化了分类准确性和自编码器中的图像恢复保真度。学习到的潜在表示被编码为 Rydberg 哈密顿量中的脉冲失谐参数，随后通过期望值得到量子嵌入。这些嵌入随后被传递给线性分类器。我们的模拟结果表明，该方法优于一些使用 PCA 或非引导自编码器的传统方法。我们还进行了消融研究，以评估各种量子参数和训练参数的影响，展示了我们提出的管道在现实世界医学成像应用中的鲁棒性和灵活性，即使在当前的含噪声中等规模量子（NISQ）时代也是如此。

©2025 IEEE. 允许个人使用本材料。对于当前或未来的任何媒体中的所有其他用途，包括为广告或促销目的重新印刷/重新发布本材料、创建新的集体作品、用于转售或重新分发到服务器或列表，或在他作品中重用本材料的任何受版权保护的组件，必须获得 IEEE 的许可。

## I 引言

医学成像的进步显著改善了疾病诊断和治疗计划。对于结直肠癌等疾病，通过结肠镜图像分析早期检测息肉对于降低死亡率至关重要\[1 (https://arxiv.org/html/2605.06727#bib.bib1)\]。深度学习技术，特别是自编码器，被广泛用于从高维图像中提取压缩的、信息丰富的特征以进行分类\[2 (https://arxiv.org/html/2605.06727#bib.bib2)\]。然而，经典神经网络可能在捕捉复杂医学数据中的复杂相关性方面遇到困难\[3 (https://arxiv.org/html/2605.06727#bib.bib3)\]。

量子计算为机器学习提供了新的机遇，特别是通过量子储层计算（QRC），其中物理量子系统将经典输入处理为高维非线性嵌入\[4 (https://arxiv.org/html/2605.06727#bib.bib4),5 (https://arxiv.org/html/2605.06727#bib.bib5)\]。最近的工作表明，模拟量子系统，如中性原子平台，可以作为具有丰富动力学的未训练储层，用于时序和模式识别任务\[6 (https://arxiv.org/html/2605.06727#bib.bib6),7 (https://arxiv.org/html/2605.06727#bib.bib7)\]。

在这项工作中，我们提出了一种量子引导的自编码器架构，将经典图像编码器与中性原子量子储层相结合。

在混合方法中，经典编码器压缩图像数据，量子储层将编码后的特征扩展到更高维度的希尔伯特空间，从而提高分类性能，因为这些扩展后的特征可能捕捉到经典方法无法有效表示的高阶相关性和非线性。

此类混合量子-经典模型的主要挑战在于量子测量的不可微性，这阻碍了基于梯度的优化。此外，调整量子参数可能会受到 barren plateaus（ barren 高原，指梯度在高维希尔伯特空间中消失的现象）的影响\[8 (https://arxiv.org/html/2605.06727#bib.bib8)\]。为了解决这个问题，我们引入了一个经典的神经代理模型，该模型模拟量子储层的输入输出行为。该代理模型通过反向传播实现端到端训练，而量子系统保持固定且不可训练。它仅用于训练代理模型并为下游分类器创建嵌入。

至关重要的是，物理储层的指数级大状态空间（及相关多体相关性）无法被经典模拟，因此代理模型仅仅是训练期间的可微代理，而不是推理时真实量子动力学的替代品。

我们的结果说明了 QRC 在实际医学任务中的可行性，并提供了一条可扩展的混合量子-经典学习路径，即使在含噪声中等规模量子（NISQ）时代也是如此。

## II 背景和相关工作

本节概述了与本工作相关的基础概念和先前研究。

### II-A 储层计算原理

储层计算是一种源于循环神经网络（RNNs）的计算框架。它涉及一个固定的、高维的动力学系统（储层），将输入数据投影到丰富的特征空间中。只有输出层被训练，这简化了学习过程并减少了计算开销。这种方法特别适用于时序预测和模式识别任务。

在数学上，令 $u(t)\in\mathbb{R}^m$ 为时间 $t$ 的输入，其中 $x(t)\in\mathbb{R}^n$ 为储层状态，$y(t)\in\mathbb{R}^k$ 为输出。储层动力学和输出由下式给出：

$$
\begin{aligned}
x(t) &= f(W_{in}u(t) + W_{res}x(t-1)) \tag{1} \\
y(t) &= W_{out}x(t), \tag{2}
\end{aligned}
$$

其中 $f$ 是非线性激活函数，$W_{in}$ 和 $W_{res}$ 是固定的输入和储层权重矩阵，$W_{out}$ 是训练后的输出权重矩阵。典型储层计算架构的示意图如图 1 (https://arxiv.org/html/2605.06727#S2.F1) 所示。

> 输入层 -> 储层层 ($W_{res}$) -> 输出层 ($W_{out}$)
> 输入 $u(t)$, 状态 $x(t)$, 输出 $y(t)$

图 1：储层计算架构，显示输入节点、具有内部动力学的循环储层网络以及输出层。

### II-B 基于中性原子的量子储层计算

量子储层计算（QRC）将储层计算范式扩展到量子领域。QRC 旨在通过访问更大的状态空间和不同类型的非线性来增强计算能力。值得注意的是，利用中性原子模拟量子计算机的大规模实验已证明了 QRC 在各种机器学习应用中的可扩展性和有效性\[7 (https://arxiv.org/html/2605.06727#bib.bib7)\]。

在 QRC 中，经典输入数据 $u(t)$ 被编码为量子态 $|\psi(t)\rangle$，在固定哈密顿量 $H$ 下演化：

$$
|\psi(t+\Delta t)\rangle = U|\psi(t)\rangle = e^{-iH\Delta t}|\psi(t)\rangle, \tag{3}
$$

其中 $U$ 是幺正演化算符，$\Delta t$ 是连续时间戳之间的差值。可观测量 $\hat{O}$ 的测量产生输出：

$$
y(t) = \langle\psi(t)|\hat{O}|\psi(t)\rangle. \tag{4}
$$

输出权重在经典层面进行训练，而量子储层保持固定。

中性原子平台，特别是利用 Rydberg 态的平台，由于其可扩展性和可控的相互作用，已成为实现 QRC 的有希望候选者。

在 M. Kornjača 等人\[7 (https://arxiv.org/html/2605.06727#bib.bib7)\]的工作中，开发了一种大规模、无梯度的 QRC 算法，并在中性原子模拟量子计算机上进行了实验实现。该系统在各种机器学习任务中实现了具有竞争力的性能，包括分类和时序预测，展示了随着系统规模增加到 108 个量子比特，学习的有效性。

在这种激光驱动的中性原子（工作在 Rydberg 态 regime）的动力学由以下哈密顿量描述\[7 (https://arxiv.org/html/2605.06727#bib.bib7)\]：

$$
\begin{aligned}
H(t) = &\frac{\Omega(t)}{2}\sum_{j}\left(|g_j\rangle\langle r_j| + |r_j\rangle\langle g_j|\right) \\
&+ \sum_{j<k}V_{jk}n_j n_k - \sum_{j}\left[\Delta_{\mathrm{g}}(t) + \alpha_j\Delta_{\mathrm{l}}(t)\right]n_j, \tag{5}
\end{aligned}
$$

其中 $\Omega(t)$ 是原子 $j$ 的基态 $|g_j\rangle$ 和高激发 Rydberg 态 $|r_j\rangle$ 之间的全局 Rabi 驱动幅度，$n_j = |r_j\rangle\langle r_j|$，$V_{jk} = C_6 / \|r_j - r_k\|^6$ 描述原子间的 van der Waals 相互作用，失谐分为全局项 $\Delta_{\mathrm{g}}(t)$ 和位点依赖项 $\Delta_{\mathrm{l}}(t)$，其中位点调制 $\alpha_j \in [0,1]$。

通过将系统初始化为特定状态并允许其在此哈密顿量下演化， resulting 量子态编码了关于输入数据的信息。对该状态的可观测量测量产生的输出可用于分类或预测等任务，仅需训练最终的读出层。

### II-C 图像数据的降维

降维是机器学习和数据分析中的关键预处理步骤，旨在减少数据集中的输入变量数量，同时保留尽可能多的信息。这一过程提高了计算效率并促进了数据可视化。

#### II-C1 主成分分析

主成分分析（PCA）\[9 (https://arxiv.org/html/2605.06727#bib.bib9)\]是一种线性降维技术，将一组相关变量转换为一组不相关的变量，称为主成分。目标是用最少数量的成分捕捉数据中的最大方差。

PCA 对于主成分与最大方差方向对齐的数据集非常有效，但它可能无法捕捉数据中复杂的非线性关系\[10 (https://arxiv.org/html/2605.06727#bib.bib10)\]。

#### II-C2 自编码器架构

自编码器是一类人工神经网络，旨在以无监督方式学习输入数据的高效编码。它们由两个主要部分组成：一个编码器，将输入压缩为潜在空间表示；以及一个解码器，从该表示重建输入。

给定输入 $\mathbf{x}\in\mathbb{R}^d$，编码器将 $\mathbf{x}$ 映射到潜在表示 $\mathbf{z}\in\mathbb{R}^k$（其中 $k<d$）：

$$
\mathbf{z} = \varepsilon_{\bm{\omega}}(\mathbf{x}). \tag{6}
$$

解码器随后重建输入 $\mathbf{\hat{x}}\in\mathbb{R}^d$：

$$
\mathbf{\hat{x}} = \mathcal{D}_{\bm{\rho}}(\mathbf{z}), \tag{7}
$$

此处我们遵循文献\[11 (https://arxiv.org/html/2605.06727#bib.bib11)\]的符号表示。网络被训练以最小化重建损失：

$$
\mathcal{L}(\mathbf{x},\mathbf{\hat{x}}) = \|\mathbf{x} - \mathbf{\hat{x}}\|^2. \tag{8}
$$

自编码器的这种架构如图 2 a) 所示。

自编码器可以捕捉数据中复杂的非线性关系，使其适用于图像压缩、去噪和异常检测等任务\[12 (https://arxiv.org/html/2605.06727#bib.bib12), 1 (https://arxiv.org/html/2605.06727#bib.bib1)\]。

#### II-C3 量子引导自编码

量子引导自编码器将量子计算原理集成到自编码器框架中，以利用量子优势进行数据处理和表示。这些模型旨在在单一架构中执行降维和分类，从而提高在复杂数据集上的性能。

在量子引导自编码器（QGA）模型中，经典编码器首先降低输入数据的维度。压缩后的数据随后由参数化量子电路处理，该电路充当解码器和分类器。量子电路使用幺正运算将输入态 $|\psi_{\text{in}}\rangle$ 转换为输出态 $|\psi_{\text{out}}\rangle$：

$$
|\psi_{\text{out}}\rangle = U(\bm{\theta})|\psi_{\text{in}}\rangle. \tag{9}
$$

参数 $\bm{\theta}$ 经过优化，以最小化结合重建误差和分类准确性的损失函数。对 $|\psi_{\text{out}}\rangle$ 的测量产生最终分类结果。

这种方法在识别粒子碰撞数据中的希格斯玻色子等任务中表现出优于传统方法的性能，展示了量子引导模型在处理高维、复杂数据集方面的潜力\[11 (https://arxiv.org/html/2605.06727#bib.bib11)\]。

## III 方法论

### III-A 提出的系统架构

我们提出的管道是一种带有储层代理的量子引导自编码器（QGARS）。它是一种混合架构，协同结合经典自编码技术和量子储层处理，以实现特征的高效学习。预计这些特征能更好地匹配储层计算层，该层的嵌入用于执行分类任务。

该系统旨在克服量子操作固有的不可微性，这传统上阻碍了基于梯度的训练方法。整体架构如图 2 所示，架构组件如下：

- **经典自编码器**：
    - **编码器**：将高维输入数据 $\mathbf{x}$ 转换为低维潜在表示 $\mathbf{z}$。
    - **解码器**：解码器网络 $\mathcal{D}_{\rho}(\mathbf{z})$ 从潜在表示重建输入数据，产生 $\mathbf{\hat{x}}$。
- **量子储层层**：
    - **参数映射**：$g(\mathbf{z})$ 将潜在表示 $\mathbf{z}$ 映射到局部失谐频率... *(注：原文在此处截断)*

基于自编码器和代理驱动训练的冷原子储层计算在医学图像分类中的应用

相似文章

MedQA：在AMD ROCm上微调临床AI——无需CUDA

Qwen-Image-VAE-2.0 技术报告

多项式自编码器在 Transformer 嵌入压缩上优于 PCA

元学习上下文学习实现无需训练的跨被试脑解码

通过分类器引导的胚系吸收离散扩散实现抗体序列的条件生成

提交意见反馈