何时、何地、如何:面向表格自监督学习的自适应分箱方法
摘要
本文提出自适应分箱(Adaptive Binning),一种针对表格自监督学习的、与学习过程耦合的特征级粗到细课程,能够自适应地离散化特征,在医学数据集上提升表示质量,并建立了统一的基准测试。
查看缓存全文
缓存时间: 2026/06/23 01:39
论文页面 - When, Where, and How: Adaptive Binning for Tabular Self-Supervised Learning
Source: https://huggingface.co/papers/2606.19827 main_figure (https://cdn-uploads.huggingface.co/production/uploads/67039e7443929668458d3618/G3-DkG1OiDnT0qHQkNWrE.png)
本文针对医学表格自监督学习提出了自适应分箱方法。其核心思想是用一种学习耦合、特征层面的由粗到细课程方案来替代固定的全局分位数分箱,该方案能够确定何时细化每个特征、在何处分割其分箱,以及如何通过类型感知的有序重构来监督混合分类–数值模式。
我们展示了自适应离散化在多种公开的医学表格数据集上,无论是在线性探测还是微调评估中,都能产生更强的表示。此外,我们还建立了统一的基准,用于可重复的医学表格自监督学习。
相似文章
TabEmbed:用于表格理解的通用嵌入的基准测试与学习
本文介绍了 TabEmbed,这是一种用于表格数据的通用嵌入模型,统一了分类和检索任务,并介绍了 TabBench,这是一个用于评估表格理解能力的新基准。
MulTaBench:基于文本与图像的多模态表格学习基准测试
介绍了 MulTaBench,一个包含40个数据集的基准测试,用于文本和图像模态的多模态表格学习。实验表明,任务特定的嵌入调优优于冻结的预训练嵌入,特别是在模态提供互补预测信号时。
GOTabPFN:从特征排序到紧凑标记化——面向高维数据的表格基础模型
本文介绍了GOTabPFN,一种结合了图引导排序与局部精炼(GO-LR)及神经启发子单元压缩(NSC)的方法,使得小型表格基础模型能够在无需重新训练大型骨干网络的情况下,有效进行高维低样本量预测。
修正表格分类中先验数据拟合网络的类别不平衡问题
本文将经典的类别不平衡技术应用于表格分类的先验数据拟合网络(PFNs),发现由于PFNs的校准特性和有限数据能力,阈值法和降采样法表现良好。
解耦类别不平衡CT身体成分分割中的采样与训练预算
本文研究了从少样本学习中采用情节采样(episodic sampling)用于医学图像分割中的类别平衡批次构建,表明在低数据条件下由于减少过拟合和延长训练迭代而提高了性能,代码可在GitHub上获取。