TAROT:面向少样本表格学习的LLM先验图任务自适应精化
摘要
TAROT提出了一个基于GNN的框架,利用LLM构建和精化任务自适应的语义图,用于少样本表格学习,达到了最先进的性能。
arXiv:2606.11640v1 公告类型:新
摘要:少样本表格学习为现实应用提供了一种经济高效的方法,在这些应用中,标注成本高昂,且为新任务收集足够样本很困难。现有的传统方法和基于LLM的方法已在少样本场景中展现出有效性。然而,传统方法需要在无标签或生成数据上进行额外训练,这带来了巨大的计算开销。此外,直接将原始表格数据输入LLM的基于LLM的方法引发了隐私和合规性问题。更重要的是,这两种范式都很大程度上忽略了特征之间的语义关系,而这些关系为构建语义图提供了结构和语义先验。语义图对于在少样本场景中建模有意义的特征交互至关重要。在本文中,我们提出了TAROT,这是一个基于GNN的框架,它通过从该先验构建和精化任务自适应语义图来编码结构和语义先验,从而提升少样本表格学习中的预测性能。TAROT首先通过统一语义表格节点编码器(USTNE)将异构表格数据编码为统一的节点语义表示。然后,它提示LLM根据任务描述和特征名称推断特征之间的语义关系,以构建语义图。为了减轻LLM幻觉引入的结构噪声,TAROT引入了任务自适应语义图精化,该精化修剪虚假或与任务无关的边,并添加缺失的与任务相关的边,使图结构与下游目标对齐。最后,GNN在精化后的图上进行消息传递,以捕捉用于预测的任务相关语义依赖。在多种少样本表格学习基准上的大量实验证明了TAROT的优越性能,使其成为该领域最先进的方法。
查看缓存全文
缓存时间: 2026/06/11 13:50
# TAROT:面向少样本表格学习的任务自适应LLM先验图精炼 来源:https://arxiv.org/html/2606.11640 \(2026\) ###### 摘要 少样本表格学习为现实应用提供了一种经济高效的方法,在这些应用中,标注成本高昂,且为新任务收集足够样本存在困难。现有的传统方法和基于LLM的方法已在少样本场景中证明了其有效性。然而,传统方法需要在未标注或生成数据上进行额外训练,这会产生大量计算开销。此外,基于LLM的方法直接将原始表格数据输入LLM,引发了隐私和合规问题。更重要的是,这两种范式都很大程度上忽略了特征之间的语义关系,而这些关系为构建语义图提供了结构和语义先验。语义图对于在少样本场景中建模有意义的特征交互至关重要。本文提出TAROT,一个基于GNN的框架,通过从该先验中构建并精炼任务自适应语义图来编码结构和语义先验,从而提升少样本表格学习中的预测性能。TAROT首先通过统一语义表格节点编码器(USTNE)将异构表格数据编码为统一的节点语义表示。然后,它提示LLM根据任务描述和特征名称推断特征间的语义关系,构建一个语义图。为了减轻LLM幻觉引入的结构噪声,TAROT引入了任务自适应语义图精炼,剪除虚假或与任务无关的边,并添加缺失的与任务相关的边,使图结构与下游目标对齐。最后,GNN在精炼后的图上进行消息传递,以捕获任务相关的语义依赖关系进行预测。在多个少样本表格学习基准上的大量实验证明了TAROT的优越性能,使其成为该领域的最先进方法。 少样本表格学习,图结构学习,大型语言模型(LLMs) ††期刊年份:2026††版权:cc††会议:第32届ACM SIGKDD知识发现与数据挖掘会议V.2;2026年8月9–13日,韩国济州岛。††论文集:第32届ACM SIGKDD知识发现与数据挖掘会议V.2 (KDD 2026),2026年8月9–13日,韩国济州岛††ISBN:979-8-4007-2259-2/2026/08††DOI:10.1145/3770855.3817944††CCS:数学计算→图算法††CCS:计算方法→机器学习††CCS:信息系统→数据挖掘请参阅标题下的图1。在Adult数据集上的语义图构建。(a) 表格数据中特征之间的语义关系。(b) 用于在少样本场景中建模有意义特征交互的语义图。## 1. 引言 表1. 现有的少样本表格学习方法大致可分为传统方法和基于LLM的方法。大多数现有方法忽略了特征之间的语义关系,且许多方法仅限于分类设置。 | 属性 | 传统少样本表格学习方法 | 基于LLM的少样本表格学习方法 | TAROT (我们的) | | :--- | :--- | :--- | :--- | | | SCARF (Bahri et al., 2021) | TabPFN (Hollmann et al., 2023) | STUNT (Nam et al., 2023) | In-context (Wei et al., 2022) | TABLET (Slack and Singh, 2023) | TabLLM (Hegselmann et al., 2023) | FeatLLM (Han et al., 2024) | | | 无需额外训练 | ✗ (对比学习) | ✗ (监督学习) | ✗ (元学习) | \cellcolorred!20✔ | \cellcolorred!20✔ | ✗ (微调LLM) | \cellcolorred!20✔ | \cellcolorred!20✔ | | 无需LLM访问样本 | \cellcolorred!20✔ | \cellcolorred!20✔ | \cellcolorred!20✔ | ✗ | ✗ | ✗ | ✗ | \cellcolorred!20✔ | | 分类任务 | \cellcolorred!20✔ | \cellcolorred!20✔ | \cellcolorred!20✔ | \cellcolorred!20✔ | \cellcolorred!20✔ | \cellcolorred!20✔ | \cellcolorred!20✔ | \cellcolorred!20✔ | | 回归任务 | \cellcolorred!20✔ | ✗ | ✗ | \cellcolorred!20✔ | ✗ | ✗ | ✗ | \cellcolorred!20✔ | | 特征之间的语义关系 | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | ✗ | \cellcolorred!20✔ | 鉴于样本标注的巨大财务和时间成本 (Clements et al., 2020; Nam et al., 2023),以及为新任务(例如一些罕见或新疾病)收集数据的困难 (Mitani and Haneuse, 2020; Mondal et al., 2020),从有限数量的标注样本中学习已成为机器学习模型实际部署的经济高效解决方案 (Snell et al., 2017; Wang et al., 2020; Oreshkin et al., 2018; Wang et al., 2021)。这种场景通常被称为少样本学习,最近在多个领域引起了越来越多的关注,包括计算机视觉 (Chen et al., 2019; Peng et al., 2019) 和表格学习 (Nam et al., 2023; Han et al., 2024)。然而,由于监督信号不足,传统的监督学习难以学习到有效的模型,因为其性能严重依赖于大量标注数据集上的统计收敛。这种局限性在表格学习中尤为明显,因为在现实应用(如欺诈检测 (Cao, 2022) 和疾病诊断 (Shailaja et al., 2018))中,标注数据往往稀缺 (Liu et al., 2024)。 为了解决这种标签有限的问题,现有的表格数据少样本学习方法大致可分为两类。传统方法旨在通过在大量未标注或合成表格数据上进行额外训练来获取可迁移的表示或有用的知识。例如,SCARF (Bahri et al., 2021) 和 STUNT (Nam et al., 2023) 利用未标注的表格数据分别学习可泛化和可适应的表示,而 TabPFN (Hollmann et al., 2023) 则在大规模生成的数据集上进行训练,以融入关于特征-标签关系的先验知识,从而在少样本场景中实现快速适应。相比之下,基于LLM的方法将原始表格样本转换为自然语言表示,并利用LLM固有的知识 (Yao et al., 2024; Bubeck et al., 2023) 进行上下文推理 (Wei et al., 2022; Slack and Singh, 2023) 和特征重要性估计 (Han et al., 2024)。此外,它还使用任务特定的微调来提高LLM对表格理解的能力和下游性能 (Hegselmann et al., 2023)。 尽管这些方法最近取得了进展,但它们仍然存在一些限制,阻碍了其在实际部署中的有效性和可扩展性,如Tab.1所示。传统方法在大量未标注或合成表格数据上进行训练时会产生大量的计算开销 (Hollmann et al., 2023)。另一方面,基于LLM的方法受到LLM上下文长度的限制 (Wang et al., 2024; An et al., 2024),并且将原始数据发送给外部模型会引发隐私和合规性问题 (Carlini et al., 2021; Kim et al., 2023)。更重要的是,这两种范式都很大程度上忽略了特征之间的语义关系,如图1(a)所示,而这些关系为构建语义图(如图1(b))提供了结构和语义先验。这种语义图能够建模有意义的特征交互,解决了在少样本场景中直接从稀疏监督信号学习特征交互时出现的不稳定性和易受虚假相关性影响的问题。 然而,据我们所知,之前没有工作成功地将语义图集成到少样本表格数据学习中,这主要是由于两个关键挑战:❶ 获取图结构困难。表格数据特征之间的语义关系通常没有明确提供,这使得相应的语义图结构不可用 (Guo et al., 2021)。同时,现有的图结构学习方法 (Liao and Li, 2023; Yan et al., 2023) 通常需要大量数据才能准确推断特征之间的语义关系,这限制了它们在少样本场景中的有效性。❷ 语义图中的结构噪声。这种噪声源于虚假或与任务无关的边以及缺失的与任务相关的边。在少样本场景中,此类噪声会误导消息传递并放大不相关的相关性,导致不可靠的预测 (Dai et al., 2022)。 本文提出TAROT,一种面向少样本表格学习的任务自适应LLM先验图精炼方法。TAROT是一个基于GNN的框架,通过任务自适应的语义图构建和精炼来显式建模特征交互,从而提升预测性能。我们的关键创新在于,在数据有限的条件下,从结构和语义先验中构建并精炼一个任务自适应语义图。该语义图 (i) 强调有意义的特征交互,且 (ii) 减轻结构噪声的不利影响。这使得消息传递更加可靠,并提升了预测性能。具体来说,TAROT首先引入了一个统一语义表格节点编码器(USTNE),使用预训练编码器将异构表格特征编码为统一的节点语义表示。接下来,它提示LLM根据任务目标描述和特征名称推断特征之间的语义关系,得到一个初始语义图(挑战❶)。然后,我们以任务自适应方式精炼该图,剪除虚假和与任务无关的边,并添加缺失的与任务相关的语义边,从而对LLM引入的结构噪声进行去噪(挑战❷),生成一个任务自适应语义图。最后,我们在精炼后的图上应用GNN来建模特征交互,从而捕获有利于下游预测的语义依赖关系。我们的主要贡献总结如下: - ⋆\\star我们提出了一种新颖的思路,利用LLM通过基于任务描述和特征名称归纳语义图来提供结构先验知识,解决了需要大量数据才能准确推断特征间语义关系的挑战。 - ⋆\\star我们引入了任务自适应精炼机制,通过移除与任务无关的边和添加缺失的与任务相关的边来对语义图进行去噪,从而在少样本表格学习中实现有效的基于GNN的特征交互建模。 - ⋆\\star在11个真实世界数据集上进行的大量实验表明,TAROT始终优于最先进的基线方法,而定量和定性分析则证实了生成的任务自适应语义图对少样本表格学习的有效性。 请参阅标题下的图2。TAROT概览。USTNE将异构表格数据编码为统一的节点表示。然后,LLM根据任务描述和特征名称构建一个语义图,该图通过任务自适应语义图精炼来减少LLM引入的噪声。GNN最终对精炼后的图进行编码以进行预测。 ## 2. 相关工作 ### 2.1. 少样本表格学习 少样本表格学习被提出来解决标注成本高昂且新兴任务(例如一些罕见或新疾病)数据稀缺的场景 (Nam et al., 2023)。该领域的最新进展大致可分为两类:传统少样本表格学习方法和基于LLM的少样本表格学习方法。传统方法,如SCARF (Bahri et al., 2021)、STUNT (Nam et al., 2023) 和 TabPFN (Hollmann et al., 2023),利用大规模未标注数据或合成数据集进行额外训练,从而捕获可迁移的表格模式,以在有限监督下提升下游性能。与此同时,LLM在大量真实世界语料库上进行训练,编码了大量的世界知识 (Hu et al., 2025; Hou et al., 2024),并展现出强大的推理能力 (Laban et al., 2023; Wan et al., 2023),这使得它们在表格学习中越来越有吸引力。现有的基于LLM的方法通常将表格数据序列化为自然语言表示,并提示LLM执行表格预测任务。例如,TABLET (Slack and Singh, 2023) 通过将任务特定指令融入提示来增强表格推理,而 FeatLLM (Han et al., 2024) 则将LLM用作特征工程师,在训练下游分类器之前自动过滤重要特征。或者,TabLLM (Hegselmann et al., 2023) 在表格数据上微调LLM,以提高它们理解和处理表格数据的能力。尽管有效,但大多数现有方法忽略了语义图结构,而语义图的消息传递机制能够捕获语义依赖关系并改进少样本预测。 ### 2.2. 基于图的表格学习 表格数据通常表现出语义图结构,即特征之间的语义关系。这种语义结构建模有意义的特征交互并提升预测性能 (Yan et al., 2023)。获取表格图的一种直接方法是手动特征工程 (Seide et al., 2011)。例如,TabGNN (Guo et al., 2021) 使用多种手工设计构建了一个多重图
相似文章
超越金牌教师:通过LLM-GNN协同教学增强图学习
本文提出LLM-GNN协同教学(LLM-GNN Co-Teaching),一种面向文本属性图的小样本图学习的双向框架。LLM和GNN交换高置信度的伪标签,并利用基于轮次的偏好优化(RPL-PO)相互改进,在基准测试上优于先前方法。
LANTERN:一种结合大语言模型增强、基于经验门控推理网络的神经符号迁移方法
本文介绍了 LANTERN,这是一个用于强化学习中多源神经符号迁移的框架,它利用大语言模型生成任务自动机,并结合自适应门控机制来提高样本效率。
GOTabPFN:从特征排序到紧凑标记化——面向高维数据的表格基础模型
本文介绍了GOTabPFN,一种结合了图引导排序与局部精炼(GO-LR)及神经启发子单元压缩(NSC)的方法,使得小型表格基础模型能够在无需重新训练大型骨干网络的情况下,有效进行高维低样本量预测。
使用ART微调多模态大语言模型:基于艺术强化训练
ART(基于艺术强化训练)通过梯度反向传播优化原始视觉输入,实现对冻结的多模态大语言模型的参数高效微调,其性能与LoRA相当,同时支持为vLLM等高吞吐引擎预编译的计算图。
TALAN:面向大语言模型定向后训练的任务对齐潜在自适应网络
TALAN 引入了一种序列条件潜在侧路径,用于大语言模型的定向后训练,在 STEM/代码基准上以最小的开销实现了显著改进。