何时、何地、如何：面向表格自监督学习的自适应分箱方法

Hugging Face Daily Papers 2026/06/18 00:00 论文

tabular-data self-supervised-learning medical-ai binning representation-learning benchmark

摘要

本文提出自适应分箱（Adaptive Binning），一种针对表格自监督学习的、与学习过程耦合的特征级粗到细课程，能够自适应地离散化特征，在医学数据集上提升表示质量，并建立了统一的基准测试。

医学表格数据在临床研究中普遍存在，但表格深度学习仍未被充分探索，因为可靠的标签通常需要昂贵的人工判定——尽管结构化临床变量常以表格形式常规可用。自监督学习可利用这些无标签表格，近期基于分箱的预训练任务提供了有前景的归纳偏置，但现有方法固定使用单一全局分位数离散化并施加与特征无关的监督。我们提出自适应分箱（Adaptive Binning），一种用于表格自监督学习的训练自适应离散化预训练任务，通过特征级粗到细课程将离散化与学习过程耦合。受神经网络谱偏差和课程学习原则的启发，我们的方法在检测到平台期后逐步细化每个特征的离散化，并选择表示感知的分割点，以共同改善值空间集中性和表示空间一致性。一种异质性感知目标统一了分类重建和对数值特征的有序监督。在统一评估协议下的公共医学表格数据集上的实验表明，线性探测和微调均取得了持续改进，无需针对数据集调整离散化。我们进一步引入了一个医学表格自监督学习基准，配有标准化协议，以支持这一未被充分探索领域的可重复进展。我们的代码可在 https://github.com/labhai/Adaptive-Binning 获取。

查看原文

查看缓存全文

缓存时间: 2026/06/23 01:39

论文页面 - When, Where, and How: Adaptive Binning for Tabular Self-Supervised Learning

Source: https://huggingface.co/papers/2606.19827 main_figure (https://cdn-uploads.huggingface.co/production/uploads/67039e7443929668458d3618/G3-DkG1OiDnT0qHQkNWrE.png)

本文针对医学表格自监督学习提出了自适应分箱方法。其核心思想是用一种学习耦合、特征层面的由粗到细课程方案来替代固定的全局分位数分箱，该方案能够确定何时细化每个特征、在何处分割其分箱，以及如何通过类型感知的有序重构来监督混合分类–数值模式。

我们展示了自适应离散化在多种公开的医学表格数据集上，无论是在线性探测还是微调评估中，都能产生更强的表示。此外，我们还建立了统一的基准，用于可重复的医学表格自监督学习。

何时、何地、如何：面向表格自监督学习的自适应分箱方法

论文页面 - When, Where, and How: Adaptive Binning for Tabular Self-Supervised Learning

相似文章

TabEmbed：用于表格理解的通用嵌入的基准测试与学习

MulTaBench：基于文本与图像的多模态表格学习基准测试

GOTabPFN：从特征排序到紧凑标记化——面向高维数据的表格基础模型

修正表格分类中先验数据拟合网络的类别不平衡问题

解耦类别不平衡CT身体成分分割中的采样与训练预算

提交意见反馈