植物表型组学中小数据量子学习的监督潜在重构

arXiv cs.LG 2026/05/21 04:00 论文

摘要

本文提出了一种面向小数据场景下植物表型组学分类的混合量子-经典工作流，通过监督潜在重构（PCA+LDA）在量子核对齐前提升几何可分性。实验显示可分性有所提升，但揭示了压缩权衡以及实现强量子性能的困难。

arXiv:2605.20413v1 公告类型：新摘要：高维生物数据通常存在特征维度和样本量之间的严重不匹配，使得在极小数据场景下难以进行可靠分类。在这些设置中，当潜在压缩未能保留分类结构时，核方法可能会失去判别力。我们针对细粒度植物表型组学研究这一问题，提出了一种混合工作流：将1280维深度图像嵌入压缩为64维PCA空间，然后通过线性判别分析（LDA）将其重构为11维监督潜在空间，随后在NVIDIA L40S硬件上进行GPU加速的量子核对齐（QKA）。实验表明，监督潜在重构显著提高了压缩表示的几何可分性，Silhouette系数从原始嵌入空间的0.003和PCA-64的-0.006增加到监督LDA-11空间的0.197。然而，下游经典评估揭示了明显的压缩权衡：线性SVM和XGBoost在重构潜在空间中表现提升，而RBF-SVM和随机森林在同一11维瓶颈下性能下降。在受限优化预算下，该机制下的QKA仍然具有挑战性，表明仅靠潜在几何不足以实现强大的可训练量子性能。这些发现将表示几何定位为小数据量子学习中的核心设计变量，并揭示了从过度压缩的生物表示中恢复非线性判别结构的实际困难。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:25

# 监督潜在空间重构用于植物表型组学中的小数据量子学习
来源: https://arxiv.org/html/2605.20413
Alakananda Mitra https://orcid.org/0000-0002-8796-4819 内布拉斯加大学林肯分校IANR内布拉斯加水中心 林肯, NE 68588 [email protected] & David H. Fleisher https://orcid.org/0000-0002-0631-3986, Vangimalla Reddy USDA-ARS适应性作物系统实验室 贝尔茨维尔, MD 20705 {david.fleisher, vangimalla.reddy}@usda.gov & Chittaranjan Ray https://orcid.org/0000-0002-1731-2030 内布拉斯加大学林肯分校DWFI内布拉斯加水中心 林肯, NE 68588 [email protected]

###### 摘要

高维生物数据常常表现出特征维度与样本量之间的严重不匹配，使得在极端小数据场景下进行可靠分类变得困难。在这些设置中，当潜在压缩未能保留类别分离结构时，核方法可能失去判别能力。我们在细粒度植物表型组学中研究了这一问题，并提出了一种混合工作流程：将1280维深度图像嵌入压缩为64维PCA空间，然后使用线性判别分析（LDA）将其重构为11维监督潜在空间，随后在NVIDIA L40S硬件上进行GPU加速的量子核对齐（QKA）。实验表明，监督潜在空间重构显著改善了压缩表示的几何可分离性：轮廓系数从原始嵌入空间的0.003和PCA-64的-0.006提升到监督LDA-11空间的0.197。然而，下游经典评估揭示了明显的压缩权衡：线性SVM和XGBoost在重构的潜在空间中表现提升，而RBF-SVM和随机森林在同一11维瓶颈下性能下降。在有限的优化预算下，该场景中的QKA仍然具有挑战性，表明仅靠潜在几何特性不足以实现强可训练的量子性能。这些发现将表示几何定位为小数据量子学习中的核心设计变量，并揭示了从显著压缩的生物表示中恢复非线性判别结构的实际困难。

## 1 引言

高维生物传感数据常常表现出特征维度与样本量之间的严重不匹配。这一挑战在植物表型组学中尤为突出，因为尽管类别间视觉复杂性差异显著，但疾病识别往往只能依靠少量标记数据进行。在细粒度植物病理学中，诊断上有意义的差异可能通过细微的病变纹理、变色或形态出现，而非大的全局变化，这使得即使对于强大的机器学习模型也难以可靠分类（Mohanty等人，2016；Ferentinos，2018；Barbedo，2018）。在这种条件下，挑战不仅在于从少量样本中学习，还在于当高维表示为下游推理而压缩时，如何保持有生物意义的结构。

这一问题在量子机器学习（QML）中变得尤为重要。许多实际量子流水线本质上受量子比特数限制：它们无法直接处理高维经典嵌入，因此在量子编码前需要进行剧烈的降维（Havlíček等人，2019；Schuld和Killoran，2019）。这在实际中造成了一个困难的权衡：压缩对于使量子学习可行是必要的，但也可能移除对可靠分类至关重要的类别分离信息。因此，量子核方法的成功不仅取决于量子电路或优化器，还取决于经典表示在映射到希尔伯特空间之前如何进行重构（Havlíček等人，2019；Schuld和Killoran，2019）。

大多数实际降维流水线依赖于无监督方法，如主成分分析（PCA），它保留主要方差方向，但不明确保留类别判别结构（Jolliffe和Cadima，2016）。相比之下，线性判别分析（LDA）构建监督投影，最大化类间分离相对于类内变异（Fisher，1936）。这一区别在小数据和细粒度场景中尤为重要，因为诊断有用的变异可能不与最大全局方差方向一致（Jolliffe和Cadima，2016；Fisher，1936；Barbedo，2018）。这表明表示几何不应仅被视为预处理细节，而应作为小数据QML的核心设计变量。

在这项工作中，我们通过一个混合经典-量子流水线研究细粒度植物表型组学中的这个问题。从使用EfficientNet-B0（Tan和Le，2019）提取的1280维深度图像嵌入开始，我们首先将特征压缩到64维PCA空间，然后应用监督LDA获得11维类别感知潜在表示。这一*监督潜在空间重构*（SLR）阶段之后是角度感知潜在缩放和量子核对齐（QKA），在NVIDIA L40S硬件上使用GPU加速模拟实现。我们不假定监督压缩普遍有益，而是考察这一重构如何改变潜在几何以及下游在经典和量子学习器上的行为。

我们的实证结果揭示了微妙的图景。一方面，监督潜在空间重构显著改善了压缩表示的几何可分离性（通过轮廓分析和低维可视化衡量）。另一方面，其下游效应强烈依赖于模型：一些经典学习器从监督潜在空间中受益，而更强的非线性基线在同一11维瓶颈下性能下降。该场景下的QKA实现了非平凡的多类性能，但在有限的优化和评估预算下仍然具有挑战性。这些发现共同表明，与量子比特兼容的潜在空间对于强可训练的量子性能是必要但不充分的。

因此，本文的主要贡献不是声称量子优越性，而是在生物学现实的小数据场景下，对极端压缩下的表示几何进行细致的实证研究。我们表明，监督潜在空间重构可以显著改善可分离性，同时仍然在下游学习器间引入权衡，并利用这一场景研究可训练量子核在细粒度12类植物病理学任务中的实际极限。更广泛地，我们的结果认为，小数据QML的未来进展可能需要表示学习、压缩和量子优化的协同设计。

总之，我们的贡献如下：

- •我们引入了一个面向小数据植物表型组学的混合流水线，结合了深度特征提取、基于PCA的压缩、通过LDA进行监督潜在空间重构、角度感知缩放和量子核对齐。
- •我们表明，监督潜在空间重构显著改善了压缩潜在空间的几何可分离性，但在经典学习器之间引入了模型依赖的权衡。
- •我们在得到的11维潜在空间中评估可训练的QKA，并表明在有限优化预算下，该方法实现了非平凡的多类性能，但仍远低于最强的经典基线。
- •我们将表示几何确定为小数据量子学习中的核心设计变量，并强调了从显著压缩的生物表示中恢复非线性判别结构的实际困难。

## 2 相关工作

量子核对齐与可训练量子核：量子核方法通过将经典数据映射到高维希尔伯特空间（线性分离可能变得更容易），已成为量子机器学习中一个富有前景的方向。Schuld和Killoran (2019)以及Havlíček等人 (2019)的开创性工作为量子特征映射和基于核的量子分类奠定了基础。为了解决这一问题，近期的研究探索了可训练量子核和对齐目标，使核适应下游任务（Glick等人，2024），而不是仅依赖固定编码。然而，实际部署仍然具有挑战性，因为可训练量子模型可能遭受优化病理学问题，包括在较大参数化电路中的梯度消失和可训练性差（McClean等人，2018），这促使使用无梯度随机方法如SPSA（Spall，1992）。我们的工作建立在这一研究线上，研究在细粒度多类生物场景中的量子核对齐（QKA）。与先前工作中通常考虑的二元或小类基准相反，我们聚焦于一个在极端小数据约束下的12类植物病理学问题，其中优化和表示质量都变得关键。

QML的潜在空间几何与降维：量子机器学习中的一个主要瓶颈是将高维经典数据编码到受量子比特限制的量子表示中。由于当前的量子流水线只能处理少量输入维度，大多数实际方法在量子嵌入前依赖降维。主成分分析（PCA）常用于此目的，因为它以紧凑形式保留主方差方向（Jolliffe和Cadima，2016）。然而，PCA是无监督的，因此并未明确优化以保留类别判别信息。相比之下，线性判别分析（LDA）构建监督投影，最大化类间分离相对于类内变异（Fisher，1936）。这一区别在小数据和细粒度分类场景中尤为重要，因为诊断上有意义的变异可能不与最大全局方差方向一致（Jolliffe和Cadima，2016；Fisher，1936；Barbedo，2018）。先前的工作强调输入表示的几何对下游核性能有强烈影响，包括在诱导特征空间对编码数据结构高度敏感的量子设置中（Schuld和Killoran，2019；Havlíček等人，2019）。受此观察启发，我们的工作引入了*监督潜在空间重构*（SLR），它结合了基于PCA的去噪和线性判别分析（LDA），以在量子映射前更好地保留类别分离结构。这使得表示几何不被视为预处理细节，而是小数据量子学习中的核心设计变量。

量子机器学习在农业和植物表型组学中的应用：基于图像的植物病害识别已通过深度学习，特别是卷积神经网络和迁移学习方法得到广泛研究（Mohanty等人，2016；Ferentinos，2018；Mitra等人，2023）。然而，植物病害分类仍然对数据集大小、类别多样性和类别间细微的视觉重叠敏感（Barbedo，2018），使细粒度表型组学成为一个特别具有挑战性的场景。在此类应用中，诊断上有意义的线索可能表现为病变纹理、变色或形态上的微小差异，而非大的全局变化（Ferentinos，2018；Barbedo，2018）。虽然用于植物病害识别的经典深度学习现已成熟，但该领域的量子机器学习仍相对有限。我们的工作则研究一个在极端小数据场景下的平衡12类植物病理学问题，并开发了针对该场景量身定制的混合量子核流水线。我们不提出端到端的量子视觉模型，而是聚焦于表示压缩和潜在几何如何影响现实细粒度表型组学任务中的量子核学习。

现有文献中的空白：综合来看，先前的工作表明，量子核方法的成功不仅取决于量子特征映射或优化过程的选择，还取决于被编码的经典表示的几何。然而，大多数现有研究主要将降维视为量子比特预算约束，而非判别性设计问题。因此，在量子映射前进行监督潜在空间重构的作用仍未充分探索，特别是在细粒度、小数据的生物应用中。这一限制在植物表型组学中尤为突出，因为诊断上的重要差异往往是微妙的、局部结构的，并且在剧烈压缩下难以保留。我们的工作通过展示围绕类别分离方向显式重构潜在空间显著改善了潜在可分离性，并为在12类植物病理学场景中提供更结构化的起点供可训练量子核使用，从而弥补了这一空白。

## 3 方法

我们提出了一个四阶段流水线，将植物表型组学中的高分辨率视觉表示与量子核学习所需的低维结构连接起来，随后简要描述计算实现。关键思想是在将深度图像特征转换为适合量子编码的紧凑潜在空间时，保留诊断上有意义的生物变异。特别地，我们解决了在极端小数据条件下高维嵌入被压缩时可能发生的类别判别结构丢失问题。

#### 深度特征提取：

我们首先使用迁移学习将每张叶片图像映射到高维特征空间。具体地，我们采用基于ImageNet预训练的EfficientNet-B0骨干（Tan和Le，2019），从全局平均池化层提取深度嵌入，对于每个样本 \(i\) 得到向量 \(\mathbf{e}_i \in \mathbb{R}^{D}\)，其中 \(D = 1280\)。选择EfficientNet-B0是因为它的参数效率和在生物医学

相似文章

QUIVER：量子信息视图增强大型机器学习模型的表示

arXiv cs.LG

本文介绍了QUIVER，一种通过从量子费舍信息矩阵中提取的量子启发特征来丰富经典机器学习模型的范式，并在分子属性预测和喷注味分类基准上展示了改进效果。

基于自编码器和代理驱动训练的冷原子储层计算在医学图像分类中的应用

arXiv cs.LG

本文提出了一种结合中性原子储层计算和自编码器的混合量子-经典管道，用于医学图像分类，特别是息肉检测。该研究通过引入代理模型解决了量子测量不可微分的问题，从而实现了端到端训练。

Gated QKAN-FWP: Scalable Quantum-inspired Sequence Learning

Hugging Face Daily Papers

# Paper page - Gated QKAN-FWP: Scalable Quantum-inspired Sequence Learning Source: [https://huggingface.co/papers/2605.06734](https://huggingface.co/papers/2605.06734) Authors: , , , , , , , , , , , , , , , , , ## Abstract Quantum\-inspired fast\-weight programming framework using single\-qubit circuits achieves superior forecasting performance with reduced parameters compared to classical recurrent models while maintaining NISQ device compatibility\. [Fast Weight Programmers](https://huggingfac

Gated QKAN-FWP：可扩展的量子启发序列学习

arXiv cs.LG

本文提出了 Gated QKAN-FWP，这是一个可扩展的量子启发序列学习框架，它通过单量子比特数据重新加载电路，将快速权重程序员（Fast Weight Programmers）与柯尔莫哥洛夫-阿诺德网络（Kolmogorov-Arnold Networks）相结合。

在量子退火器上通过基于QUBO的客户端选择的拜占庭鲁棒联邦学习

arXiv cs.LG

本文提出了一种量子退火方法，将联邦学习中的客户端选择重新表述为QUBO问题以防御拜占庭攻击。实验表明，在复杂攻击上，该方法相比经典MultiKrum具有更高的检测准确性，尤其是与MultiSignal集成结合时。

相似文章

QUIVER：量子信息视图增强大型机器学习模型的表示

基于自编码器和代理驱动训练的冷原子储层计算在医学图像分类中的应用

Gated QKAN-FWP: Scalable Quantum-inspired Sequence Learning

Gated QKAN-FWP：可扩展的量子启发序列学习

在量子退火器上通过基于QUBO的客户端选择的拜占庭鲁棒联邦学习

提交意见反馈