用于近红外化学传感数据稳健标定的表格基础模型
摘要
本文评估了表格基础模型(尤其是TabPFN)用于近红外光谱数据标定的效果。与传统化学计量学方法相比,该模型在回归和分类任务上表现出强劲性能。
arXiv:2605.21544v1 公告类型:新
摘要:近红外光谱技术正越来越多地被用作一种快速、无损的化学传感技术,用于分析食品、药品、生物及环境样品。然而,NIR传感器的实际部署仍依赖于能够处理高维、共线光谱、有限样本量、预处理依赖性、光谱异常值以及超出标定域外推的标定模型。本文评估了表格基础模型能否为NIR化学传感提供一种新的标定策略。我们在66个NIR数据集上对TabPFN进行了基准测试,涵盖54个回归任务和12个分类任务,并将原始光谱上的直接推理与经过预处理优化的推理进行了对比,比较对象包括PLS/PLS-DA、Ridge、Catboost以及一维卷积神经网络。本研究采用统一的验证框架,在外部测试评估之前,预处理和模型选择完全在标定数据上进行。在回归任务中,经预处理优化的TabPFN取得了最佳总体平均排名,显著优于PLS、CatBoost、原始光谱上的TabPFN以及CNN-1D,同时在统计上与Ridge相当。在分类任务中,直接应用于原始光谱的TabPFN取得了最佳平均排名,性能接近于优化版本。鲁棒性分析显示,TabPFN提供了较强的平均预测性能,但在光谱异常值和外推样本上其优势有所减弱,而经典化学计量学模型在这些情况下仍具有竞争力。这些结果表明,表格基础模型可以补充已有的NIR化学传感化学计量学工作流程,尤其是在小到中等规模的标定场景中,同时也突显了开发光谱特异性先验知识和不确定性感知部署策略的需求。
查看缓存全文
缓存时间: 2026/05/22 08:48
# 基于表格基础模型的近红外化学传感数据稳健校准 **来源:** https://arxiv.org/html/2605.21544 Robin Reiter(法国农业国际合作研究中心(CIRAD),UMR AGAP 研究所, 蒙彼利埃,法国;蒙彼利埃大学、CIRAD、INRAE、Institut Agro 联合研究单位 UMR AGAP 研究所,蒙彼利埃,法国) Denis Cornet(同上) Lauriane Rouan(同上) Gregory Beurier(同上) ###### 摘要 近红外光谱作为一种快速、无损的化学传感技术,日益广泛地应用于食品、制药、生物及环境样本的分析中。然而,NIR 传感器的实际部署仍依赖于能够处理高维、共线光谱、有限样本量、预处理依赖性、光谱异常值以及超出校准域外推的校准模型。在此,我们评估了表格基础模型能否为 NIR 化学传感提供一种新的校准策略。我们在 66 个 NIR 数据集(涵盖 54 个回归任务和 12 个分类任务)上对 TabPFN 进行了基准测试,并将其在原始光谱上的直接推理与经过预处理优化的推理,与 PLS/PLS-DA、Ridge、Catboost 以及一维卷积神经网络进行了比较。本项研究采用统一的验证框架:预处理和模型选择仅在校准数据上进行,然后基于外部测试集进行评估。在回归任务中,经过预处理优化的 TabPFN 获得了最佳的平均排名,并且显著优于 PLS、CatBoost、直接使用原始光谱的 TabPFN 以及 CNN-1D,但与 Ridge 相比在统计上无显著差异。在分类任务中,直接应用于原始光谱的 TabPFN 提供了最佳的平均排名,其性能接近优化后的变体。鲁棒性分析表明,TabPFN 提供了强大的平均预测性能,但其优势在光谱异常值和外推样本上有所下降,在这些情况下,经典的化学计量学模型仍然具有竞争力。这些结果表明,表格基础模型可以补充 NIR 化学传感的既定化学计量学工作流程,尤其是在中小型校准设置中,同时也强调了光谱特异性先验知识和具有不确定性感知的部署策略的必要性。 ## 1 引言 近红外光谱(NIRS)作为一种快速、无损的分析技术,广泛应用于农食产品分析[26](https://arxiv.org/html/2605.21544#bib.bib1), [27](https://arxiv.org/html/2605.21544#bib.bib16)、制药制造[18](https://arxiv.org/html/2605.21544#bib.bib18)、生物医学传感[8](https://arxiv.org/html/2605.21544#bib.bib3)以及环境监测[32](https://arxiv.org/html/2605.21544#bib.bib2)等领域的复杂样本表征。在这些应用中,核心目标是通过适当的校准模型,将光谱测量转换为对化学成分、物理属性或类别归属的可靠预测。实际上,NIRS 数据带来了若干统计挑战。光谱通常是高维的、强共线的,并且往往只能获得相对较小的样本量。此外,测量信号会受到散射、光程变化和仪器漂移等多种物理扰动的影响。这些特性使得模型设计和预处理成为光谱分析的关键组成部分[30](https://arxiv.org/html/2605.21544#bib.bib14)。 从历史上看,NIRS 校准主要依赖于诸如偏最小二乘法(PLS)[36](https://arxiv.org/html/2605.21544#bib.bib25)及其变体等化学计量学模型,这些模型因其鲁棒性、可解释性以及通过潜变量投影处理共线性的能力而得到广泛应用。最近,机器学习方法被引入,用以捕捉光谱与目标变量之间的复杂关系[19](https://arxiv.org/html/2605.21544#bib.bib20), [20](https://arxiv.org/html/2605.21544#bib.bib11), [28](https://arxiv.org/html/2605.21544#bib.bib15), [37](https://arxiv.org/html/2605.21544#bib.bib4)。其中,诸如 Ridge 回归[13](https://arxiv.org/html/2605.21544#bib.bib30)之类的正则化线性模型,通过在高维场景中稳定估计,提供了一个简单而强大的基线;而集成方法,如梯度提升(例如 Catboost[29](https://arxiv.org/html/2605.21544#bib.bib27)),则提供了灵活的、在表格数据上具有强大实证性能的非线性建模。深度学习模型,尤其是一维卷积神经网络,也被探索用于利用光谱的有序结构,尽管它们通常需要仔细的调优和充足的数据[17](https://arxiv.org/html/2605.21544#bib.bib23), [23](https://arxiv.org/html/2605.21544#bib.bib17)]。 尽管取得了这些进展,但仍存在一个基本的权衡。经典的化学计量学模型因其简单、成熟且特别适用于高共线性、小样本的光谱设定而具有吸引力。然而,当光谱与目标变量之间的关系偏离主要线性结构时,它们可能会受到限制[5](https://arxiv.org/html/2605.21544#bib.bib5)。相比之下,现代机器学习和深度学习方法能够捕捉更复杂的非线性模式,但它们通常需要更广泛的超参数调整,并且对数据集大小可能更敏感[12](https://arxiv.org/html/2605.21544#bib.bib31), [21](https://arxiv.org/html/2605.21544#bib.bib6)]。 一个充满希望的方向是由先验数据拟合网络(PFN)提供的,这类模型最初由 Müller 等人于 2021 年提出[24](https://arxiv.org/html/2605.21544#bib.bib38)]。其概念基于在多个合成数据集上预训练一个大型 Transformer(一种基于自注意力机制的神经网络架构,用于建模输入元素之间的依赖关系[33](https://arxiv.org/html/2605.21544#bib.bib29)]),从而解决许多背景下的分类或回归问题。因此,与经典的机器学习方法不同,PFN 是预先校准好的,在遇到未见过的数据集时不需要任何参数优化。预测是通过预训练网络的单次前向传播完成的。更准确地说,新数据集的特征和目标都被作为预训练模型的输入。测试目标被掩码以避免数据泄露。该模型为每个测试样本预测一个概率分布(更多细节见补充材料)。PFN 很快就展现出在回归和分类任务中令人满意的预测性能,并且在广泛的应用中实现了计算时间的显著节省。 PFN 最著名的实例是 TabPFN[14](https://arxiv.org/html/2605.21544#bib.bib35), [15](https://arxiv.org/html/2605.21544#bib.bib34)]。正如 Grinsztajn 等人(2026)[11](https://arxiv.org/html/2605.21544#bib.bib36)所描述的,TabPFN 可以被视为一个表格基础模型。该模型是专门为现实世界表格数据(即实践中常见的数据类型)设计的 PFN 的有效构建。实际上,它专门设计用于处理真实表格数据集中常见的难题,包括无信息特征、分类特征、异常值或缺失值。TabPFN 可以被定义为一个在约 1 亿个合成数据集(所有数据集均通过结构因果模型的分布生成)上预训练的 Transformer。其最新发布的版本[11](https://arxiv.org/html/2605.21544#bib.bib36)实现了最先进的性能,在几秒钟内就能做出预测,优于诸如 Catboost[29](https://arxiv.org/html/2605.21544#bib.bib27)之类的基于树的模型,并且达到了经过 4 小时调优的最先进集成方法[7](https://arxiv.org/html/2605.21544#bib.bib28)的精度。由于是在中小型合成数据集上训练,TabPFN 在样本量不超过 50,000、特征数不超过 2,000 的数据集上表现尤为出色。 然而,目前尚不清楚这类表格基础模型学习到的统计先验是否能够有效地迁移到光谱数据集上,而光谱数据集具有强烈的波长相关性和特定领域的变异结构。NIRS 数据与典型表格数据集之间的结构差异进一步凸显了这个问题。在表格设置中,特征通常被视为无序变量,各列之间具有异质的语义。相反,NIRS 光谱沿着波长轴表现出强烈的有序性和平滑性,相邻变量高度相关并携带冗余信息。这产生了一种复杂的结构,而这种结构在标准的表格表示中并未明确编码。因此,尚不清楚在通用表格先验下设计的模型(如 TabPFN)能否充分利用潜在的光谱组织,或者这种不匹配是否会限制其性能。 在本研究中,我们通过在多个涵盖回归和分类任务的 NIRS 数据集上进行大规模基准研究来探究这个问题。我们将 TabPFN 与具有代表性的基线模型进行比较,这些基线模型包括经典化学计量学模型、正则化线性模型、基于树的集成方法以及适用于光谱数据的神经架构。除了这个总体目标外,本研究还旨在通过一个受控且可重复的实验框架来解决 NIRS 建模的具体挑战。首先,我们构建了一个大型且异构的基准集合,涵盖了广泛的数据集,包括不同的样本量、维度范围和实际应用领域。其次,我们定义了一个统一的评估协议,其中预处理选择和超参数优化通过交叉验证联合进行,同时与独立测试集保持严格分离。第三,我们引入了一个结构化的预处理搜索策略,该策略反映了光谱变换的物理和统计特性,从而允许在不穷举所有可能管道的情况下,在各个模型之间进行公平比较。 本项工作的贡献有三个方面。首先,我们提供了一个表格基础模型作为 NIR 化学传感数据校准引擎的大规模评估。其次,我们量化了预处理相对于已建立的化学计量学和机器学习基线对该模型的影响。第三,我们评估了该模型在实践中的重要部署条件下的行为,包括光谱异常值和超出校准域的外推。这些元素共同旨在弥合表格基础模型的概念性前景与其在应用光谱学中有效使用之间的差距。 ## 2 材料与方法 ### 2.1 数据集 该基准旨在覆盖代表当前应用化学计量学实践的广泛 NIRS 预测问题。为此,我们收集了一个多数据集集合,涵盖了异质的分析背景、样本类型、目标变量和特征数量。图 1 (https://arxiv.org/html/2605.21544#S2.F1) 从形状和范围角度说明了这种多样性。目标不是专注于某个特定的应用领域,而是评估模型在一组多样化的实际 NIRS 校准任务中的表现。 该基准包括对化学或物理化学性质的定量预测,如水分、蛋白质、淀粉、直链淀粉、油、类胡萝卜素、干物质或相关的品质性状,以及与样本身份、来源或状况相关的分类任务。几个数据集共享一个共同的光谱数据库,仅相关的目标变量不同。 **图 1**:散点图表示数据集在样本量和变量数量上的多样性。饼图显示了与基准相关的应用领域的多样性。 该基准在样本量和维度方面有意保持异构性,这对 NIRS 尤为重要。在本基准中,回归集合包含 54 个数据集,中位数样本量为 402,中位数维度为 1003 个变量;而分类集合包含 12 个数据集,中位数样本量为 876,中位数维度为 2151 个变量。在整个基准中,数据集大小从 56 到 8731 个样本不等,光谱变量数量从 125 到 4200 不等,反映了实践中遇到的各种 NIRS 设置。数据集还涵盖了广泛的响应尺度、样本间变异水平以及校准/测试配置。这种多样性对于公平的基准测试至关重要,因为化学计量学、机器学习和基础模型方法的相对优势可能因数据集的不同而有很大差异。 只要可能,我们保留了最初与每个数据集相关的训练/测试分割方案,以与既定的评估实践保持一致。否则,我们使用基于联合 X-Y 距离的样本集划分法(SPXY)[10](https://arxiv.org/html/2605.21544#bib.bib21)或其用于分类的分层变体来构建确定性的外部分割。这种设计确保模型比较是在现实验证设置下进行的,同时确保最终测试集严格排除在模型和预处理选择之外。在数据集构建或模型评估期间,没有明确去除异常值。所有样本在其原始形式下都保留在校准和测试集中。光谱异常值仅在测试集上事后识别,其性能影响通过专门的鲁棒性分析进行考察(见第 2.6 节)。基准测试的完整数据集描述见补充材料(表 LABEL:tab:dataset_description_long_regression 和 LABEL:tab:dataset_description_long_classification)。 ### 2.2 比较模型 所有涉及 TabPFN 的实验均使用 TabPFN-2.5 [11](https://arxiv.org/html/2605.21544#bib.bib36) 版本,该版本由 Prior Labs 于 2025 年 11 月发布。具体来说,所有运行均使用默认检查点,这对应于 TabPFN-2.5 的真实数据微调变体(在 `tabpfn` Python 包内部称为 `v2.5-real`)。 在 NIRS 中对 TabPFN 进行有意义的评估,需要与反映化学计量学和应用机器学习中主要建模策略的基线进行比较。特别是,基准应涵盖 (i) 经典线性方法,(ii) 非线性机器学习方法,以及 (iii) 适用于光谱数据的深度学习架构。对于回归任务,我们因此考虑了四种具有代表性的预测器:偏最小二乘法(PLS)、Ridge 回归、CatBoost 和一维卷积神经网络(CNN-1D)[17](https://arxiv.org/html/2605.21544#bib.bib23)。PLS 作为主要的化学计量学基准被纳入,因其广泛使用以及在通过潜变量处理共线性方面的鲁棒性。Ridge 提供了一个简单而强大的正则化线性基线。CatB
相似文章
TabPFN-3:技术报告
TabPFN-3 是一个新的表格数据基础模型,在合成数据上预训练,可扩展到 100 万训练行,同时减少训练和推理时间,在表格预测、时间序列和关系数据上实现了最先进的性能。
当表格基础模型遇到策略性表格数据:一种先验对齐方法
本文研究了基于预训练先验数据拟合网络的表格基础模型是否能够泛化到个体在部署后修改特征的策略性表格数据。提出了策略性先验数据拟合网络(SPN),这是一个无需重新训练即可将PFN预测与操纵后分布对齐的推理时框架。
TabPFN-3刚刚发布:一款支持高达100万行的预训练表格基础模型 [R][N]
TabPFN-3,一款预训练的表格基础模型已发布。该模型在单个GPU上支持高达100万行数据,推理速度提升10倍至1000倍,在基准测试中对比经典机器学习方法胜率高达93%。
PriorLabs/TabPFN
PriorLabs 推出了 TabPFN,这是一种专为表格数据设计的基座模型。
修正表格分类中先验数据拟合网络的类别不平衡问题
本文将经典的类别不平衡技术应用于表格分类的先验数据拟合网络(PFNs),发现由于PFNs的校准特性和有限数据能力,阈值法和降采样法表现良好。