SCHK-HTC: 面向层级文本分类的兄弟对比学习与知识感知提示微调方法
摘要
SCHK-HTC是一种针对少样本层级文本分类的新颖方法,它将兄弟对比学习与层级知识感知提示微调相结合,能够更好地区分层级结构中较深层次的语义相似类别。该方法在三个基准数据集上取得最先进的性能,通过增强模型对兄弟类之间细微差异的感知能力来实现。
查看缓存全文
缓存时间: 2026/04/20 08:30
# SCHK-HTC:用于层次文本分类的兄弟对比学习与分层知识感知提示调优
来源:https://arxiv.org/html/2604.15998
###### 摘要
少样本层次文本分类(few-shot HTC)是一项具有挑战性的任务,需要在数据稀缺的条件下将文本映射到预定义的树形标签层次结构。虽然当前方法利用标签层次的结构约束来维护父子预测一致性,但它们面临一个关键瓶颈——难以区分语义相似的兄弟类别,这是由于领域知识不足造成的。我们引入了一种创新方法,称为用于少样本HTC任务的兄弟对比学习与分层知识感知提示调优(SCHK-HTC)。我们的工作增强了模型对深层兄弟类别之间微妙差异的感知能力,而不仅仅是强制执行层次规则。具体来说,我们提出了一个包含两个核心组件的新颖框架:分层知识提取模块和兄弟对比学习机制。该设计引导模型在每个层次级别编码判别特征,从而提高易混淆类别的可分性。我们的方法在三个基准数据集上取得了优越的性能,在大多数情况下超过了现有的最先进方法。我们的代码可在https://github.com/happywinder/SCHK-HTC获取。
索引词——层次文本分类、提示调优、对比学习、知识图谱
## 1 引言
层次文本分类(HTC)是多标签文本分类的一种专门形式,已在许多实际应用中得到广泛应用,如新闻主题分类和学术论文分类。少样本HTC进一步扩展了此任务,呈现出更大的挑战。少样本HTC的核心目标是在给定极其有限的样本数量的情况下,准确地按照从最粗到最细的粒度对文本或文档进行分类。
随着预训练语言模型(PLM)的出现和普及,提示调优范式已成为主导研究趋势,该范式使用PLM作为文本编码器。这种方法有效地缩小了PLM的预训练目标与下游任务需求之间的差距。早期著名的HTC方法使用图神经网络对标签分类法进行编码。虽然有效,但这些方法本质上是数据密集型的,在少样本场景中表现不佳。HierVerb通过用对比学习目标替代显式标签层次编码器引入了范式转变。这种方法证明了高度有效性,在多个数据集上设立了新的SOTA性能。然而,拉近下层标签嵌入增加了它们的表示重叠,从而加剧了混淆,最终阻碍了性能。这突出了这类方法的一个关键局限:随着分类深入到层次结构的更深层,标签之间的语义差异变得越来越微妙,仅基于文本很难区分。这放大了对外部知识的需求。K-HTC融合了知识图谱来提供领域知识,旨在缓解来自通用预训练数据的干扰。然而,其知识利用不是分层的,并且缺乏有效融合标签语义与领域特定知识的机制。此外,其在低资源环境中的性能未经过分析。DCL通过检索增强生成和大语言模型利用外部知识库,取得了令人印象深刻的性能提升。然而,这种方法存在两个重大缺陷:参数数量庞大导致计算成本增加,以及对上下文学习中大量注释数据的严重依赖。因此,在深层实现兄弟标签之间的有效区分,尤其是在低资源约束下,构成了一个中心且未解决的问题。

受这些观察的启发,我们提出了一个新颖的框架来通过两个核心创新来应对这些挑战。首先,为了弥补领域知识的稀缺,我们引入了一种从知识图谱中提取分层知识特征的机制。这为模型提供了在数据有限设置中分类所需的结构化、层级感知的背景信息。其次,为了解决细粒度类别之间的歧义,我们在兄弟标签上采用对比学习目标。这迫使模型学习语义相似类别之间微妙但关键的区别。这两个组件结合在一起,使我们的模型能够学习更具判别性的表示,以实现有效的少样本HTC。本文的主要贡献总结如下:(1)我们提出了一种基于提示调优的新颖分层知识感知对比学习方法。(2)我们将知识图谱融合到少样本HTC中,以缓解领域知识不足的问题,并采用对比学习进一步解决兄弟类别间高度语义相似性的问题。(3)我们在多个主流数据集上验证了我们方法的有效性,取得了显著的性能提升。
## 2 方法
在本节中,我们将详细介绍所提出的SCHK-HTC。为了通过赋予模型领域特定知识来增强模型对兄弟类别的判别力,我们提出了一个框架,将对比学习和知识图谱融合到提示调优中。我们架构的分层知识感知编码器(HK-Encoder)捕获内在的知识层次,而分层上下文编码器从文本中提取富含上下文且高度判别的特征。整体架构如图2所示。
### 2.1 分层知识感知提示调优
#### 2.1.1 分层知识感知编码器
为了生成知识感知表示,我们通过对输入文本执行实体链接来针对Wikidata构建相关子图G,提取链接的实体E及其一跳邻居和相互关系R。实体链接过程被建模为两阶段程序。首先,提及检测(MD)函数在文档D中识别一组文本提及M={m₁,m₂,...,mₖ}。其次,实体消歧步骤将每个提及mᵢ链接到知识图谱中其正确的实体eᵢ*。这一步通常涉及生成候选实体集合C(mᵢ)⊂KG并对其进行排序以找到最佳匹配。链接实体的最终集合表示为E={e₁,e₂...eₖ}:
E={eᵢ*│mᵢ∈MD(D),eᵢ*=argmax_{c∈C(mᵢ)}ψ(mᵢ,c,D)} (1)
我们采用BERT来编码来自两个互补模态的知识。给定输入序列X={x₁,x₂,...,xₙ},我们通过字符串连接将输入文本与预定义的完形填空式模板"[CLS]第一层的知识是[MASK]..."连接:
input=template+X (2)
然后我们将X中的实体链接到子图,获得对应的实体集合{e₁,e₂,...,eₖ}。对于语义模态,我们使用BERT的嵌入层EmbBERT初始化表示{w₁,w₂...,wₖ}:
{w₁,...,wₖ}=EmbBERT({e₁,...eₖ}) (3)
对于结构模态,我们采用两阶段策略:使用Node2Vec在子图上生成初始全局嵌入L:
L=Node2Vec(E,R) (4)
对于每个节点,我们聚合来自G中其邻居的随机采样集合的信息。这通过随机邻居采样和特征聚合实现,该聚合将节点自身的特征与其邻居的特征相结合以产生上下文丰富的嵌入。AGG表示随机采样和平均聚合函数。
{g₁,g₂...,gₖ}=AGG(L,G,{e₁,e₂...eₖ}) (5)
语义和结构表示通过逐元素加法融合。最后,我们提取变换器块的[MASK]标记的隐藏状态作为最终分层知识感知表示。
#### 2.1.2 分层上下文编码器
虽然知识感知特征捕获实体特定细节,但它们缺乏更广泛的句子上下文信息。为了补充它们,我们使用适配自DPT的基于提示的文本编码策略提取判别性上下文特征。对于每个分层级别,我们构造一个对比提示"[CLS]第一层是[MASK]而不是[MASK]...",包含正负[MASK]对。[MASK]pos被赋予ground-truth标签,而[MASK]neg被赋予可混淆的兄弟标签,强制模型学习细粒度区别。我们将[MASK]pos标记的最终层特征定义为htext,将在后续融合阶段中使用。
### 2.2 训练目标
#### 2.2.1 知识感知分层InfoNCE损失
我们的模型以逐层的方式提取分层知识。为了结构化学习到的表示空间,我们引入了由标签层次结构驱动的知识感知分层InfoNCE损失。核心原则是对于任意两个样本xᵢ和xⱼ,设yᵢ⁽ˡ⁾和yⱼ⁽ˡ⁾表示它们在第l层的ground-truth标签。如果yᵢ⁽ˡ⁾=yⱼ⁽ˡ⁾,则它们对应的知识表示hᵢ⁽ˡ⁾和hⱼ⁽ˡ⁾应该表现出比它们与任何样本xₖ的表示hₖ⁽ˡ⁾更高的相似度,其中yₖ⁽ˡ⁾≠yᵢ⁽ˡ⁾。这种结构约束通过对比目标来强制执行。对于具有其第l层表示hᵢ⁽ˡ⁾的锚点样本xᵢ,我们将正样本集合Pᵢ⁽ˡ⁾定义为共享标签yᵢ⁽ˡ⁾的样本,将负样本集合Nᵢ⁽ˡ⁾定义为具有不同标签的样本。第l层的InfoNCE损失旨在将锚点hᵢ⁽ˡ⁾拉近所有正样本表示{hₚ⁽ˡ⁾│p∈Pᵢ⁽ˡ⁾},同时将其推离所有负样本表示{hₙ⁽ˡ⁾│n∈Nᵢ⁽ˡ⁾}。损失公式化为:
ℒₖ⁽ˡ⁾=-log(∑_{p∈Pᵢ⁽ˡ⁾}e^{s(hᵢ⁽ˡ⁾,hₚ⁽ˡ⁾)/τ})/(∑_{p∈Pᵢ⁽ˡ⁾}e^{s(hᵢ⁽ˡ⁾,hₚ⁽ˡ⁾)/τ}+∑_{n∈Nᵢ⁽ˡ⁾}e^{s(hᵢ⁽ˡ⁾,hₙ⁽ˡ⁾)/τ}) (6)
我们执行损失的逐层求和。
ℒKH-infoNCE=∑ₗ₌₁ᴸλₗ·ℒₖ⁽ˡ⁾ (7)
其中s(·)表示余弦相似度函数,τ是温度超参数,λₗ是每层的系数。
#### 2.2.2 兄弟对比学习损失
为了增强兄弟类别之间的可区分性,我们引入了兄弟对比学习(SCL)损失,该损失利用动词化器的输出进行困难负样本挖掘。对于每个第l层,我们从动词化器输出中选择排除ground-truth标签外预测概率最高的前k个标签作为困难负样本集合Nhard⁽ˡ⁾。这些困难负样本被用作对应负动词化器中对比目标的目标。我们双模板对比学习策略的目标是强制模型关注标签之间的细粒度语义差异,从而增强其判别能力。我们通过首先使用LLM为每个类别标签生成详细的文本解释来初始化动词化器。这些解释随后通过预训练的BERT传递,我们将得到的"[CLS]"标记嵌入作为动词化器的初始向量。hₙ⁽ˡ⁾,hₚ⁽ˡ⁾分别表示第l层负动词化器和正动词化器输出,vₚ⁽ˡ⁾表示ground-truth标签嵌入。vₙ,ᵢ⁽ˡ⁾是在第l层采样的第i个困难负标签的嵌入。损失公式化为:
ℒSibling=-1/L log∑ₗ₌₁ᴸ(s(hₚ⁽ˡ⁾,hₙ⁽ˡ⁾)/τ+ (8)
e^{s(hₚ⁽ˡ⁾,vₚ⁽ˡ⁾)/τ}/(e^{s(hₚ⁽ˡ⁾,vₚ⁽ˡ⁾)/τ}+∑ᵢ₌₁^{|Nhard⁽ˡ⁾|}e^{s(hₚ⁽ˡ⁾,vₙ,ᵢ⁽ˡ⁾)/τ}))
#### 2.2.3 动词化器分类损失
对于每个分层级别l,我们融合知识感知特征hₖ⁽ˡ⁾和相似文章
使用CLIP潜在表示的分层文本条件图像生成
OpenAI提出了一个使用CLIP潜在表示进行文本条件图像生成的分层两阶段模型:一个先验模型从文本标题生成CLIP图像嵌入,以及一个基于扩散的解码器从嵌入生成图像。该方法提高了图像多样性,并实现了零样本语言引导图像操作。
Switch-KD:面向视觉语言模型的视觉开关知识蒸馏
Switch-KD提出了一种新颖的视觉开关知识蒸馏框架,通过在共享的文本概率空间内统一多模态知识迁移,高效压缩视觉语言模型。该方法在将0.5B TinyLLaVA学生模型从3B教师模型中蒸馏时,在10个多模态基准测试上实现了平均3.6个百分点的提升。
基于对比 LLM 微调对齐对话附和信号与语境表征
KTH Royal Institute of Technology 的研究人员提出了一种两阶段框架,通过在对话转写文本上微调 LLMs,并结合对比学习构建联合嵌入空间,以实现对对话附和信号与语境的精准对齐。结果表明,相较于以往方法,该方案显著提升了语境与附和信号的匹配检索性能。
利用自监督指南提升视觉指令调优
本文提出通过将自监督任务表达为自然语言指令,增强多模态语言模型中的视觉指令调优,从而在不增加架构或标注的情况下提升以视觉为中心的推理能力。通过将经典的自监督预文本任务(如旋转预测、颜色匹配和跨视角对应)重构为图像-指令-响应对,该方法仅需在训练数据中注入3%-10%的视觉化指令,便能在多个基准测试中实现一致的性能提升。
用于分层强化学习的随机神经网络
OpenAI 研究人员提出了一个使用随机神经网络进行分层强化学习的框架,该框架通过代理奖励引导预训练有用的技能,然后利用这些技能在稀疏奖励或长期视界的下游任务中加速学习。