在心理防御分类中利用上下文感知的合成增强缓解数据稀缺问题

arXiv cs.CL 2026/05/15 04:00 论文

psychological-defense nlp data-augmentation class-imbalance text-classification synthetic-data low-resource

摘要

本文提出了一种结合上下文感知合成增强框架与混合分类模型的方法，以解决从文本中分类心理防御机制时的数据稀缺和类别不平衡问题。该方法在 PsyDefDetect 共享任务基准上取得了显著改进。

arXiv:2605.14380v1 Announce Type: new 摘要：心理防御机制（PDMs）是个体调节对情绪困扰的感知和反应的无意识认知过程。从文本中自动分类PDMs具有临床价值，但严重受到数据稀缺和类别不平衡的阻碍，仅靠生成式增强无法在没有心理学基础的情况下解决这些问题。在本工作中，我们通过提出一个结合上下文感知合成增强框架与混合分类模型的方法，来解决PsyDefDetect共享任务（BioNLP@ACL 2026）中的这些挑战。我们的混合模型将上下文语言表示与基本临床特征以及150个标注的防御条目相结合。实验表明，提示中的定义质量直接决定了生成保真度和下游性能。我们的方法超越了DMRS Co-Pilot，达到了58.26%的准确率（+40.25%）和24.62%的宏观F1值（+15.99%），从而为低资源环境下基于心理学的防御机制分类建立了强基线。源代码获取地址：https://github.com/htdgv/CASA-PDC。

查看原文

查看缓存全文

缓存时间: 2026/05/15 06:21

# 利用上下文感知的合成数据增强缓解心理防御分类中的数据稀缺问题

来源：https://arxiv.org/html/2605.14380
Hoang\-Thuy\-Duong Vu¹,², Quoc\-Cuong Pham¹,², Huy\-Hieu Pham¹,²,³

¹ 越南河内Vina大学工程与计算机科学学院
² 越南河内Vina大学Vina-伊利诺伊智慧健康中心
³ 越南河内Vina大学健康科学创新中心
\{26duong.vht, 24cuong.pq, hieu.ph\}@vinuni.edu.vn

###### 摘要

心理防御机制(PDMs)是一类无意识的认知过程，调节着个体如何感知和应对情绪困扰。从文本中自动分类PDMs具有重要的临床价值，但严重受到数据稀缺和类别不平衡的阻碍，而这种挑战仅靠生成式增强方法（缺乏心理学基础）是无法解决的。在本工作中，我们通过提出一个上下文感知的合成数据增强框架并结合一个混合分类模型，来应对PsyDefDetect共享任务(BioNLP@ACL 2026)中的这些挑战。我们的混合模型将上下文语言表示与基本临床特征以及150个注释的防御条目相结合。实验表明，提示中的定义质量直接影响生成保真度和下游性能。我们的方法超越了DMRS Co-Pilot，达到了58.26%（+40.25%）的准确率和24.62%（+15.99%）的宏平均F1，从而为低资源场景下基于心理学的防御机制分类建立了强有力的基线。源代码见：https://github.com/htdgv/CASA-PDC。

VISHC在PsyDefDetect: 利用上下文感知的合成数据增强缓解心理防御分类中的数据稀缺问题

Hoang\-Thuy\-Duong Vu¹,², Quoc\-Cuong Pham¹,², Huy\-Hieu Pham¹,²,³††footnotetext:通讯作者：[email protected] (https://arxiv.org/html/2605.14380v1/mailto:[email protected])
¹ 越南河内Vina大学工程与计算机科学学院
² 越南河内Vina大学Vina-伊利诺伊智慧健康中心
³ 越南河内Vina大学健康科学创新中心
\{26duong.vht, 24cuong.pq, hieu.ph\}@vinuni.edu.vn

## 1 引言

心理防御机制(PDMs)为自然语言处理(NLP)领域带来了独特的挑战，特别是，它们是无意识的、依赖上下文的认知过程，表现为叙事不一致、情感框架转变和归因扭曲等微妙线索，而非清晰的词汇标记Vaillant (1994 (https://arxiv.org/html/2605.14380#bib.bib25)); Cramer (1987 (https://arxiv.org/html/2605.14380#bib.bib23)); Bond et al. (1983 (https://arxiv.org/html/2605.14380#bib.bib15))。这种隐含性造成了语义歧义：相同的表面文本可能反映不同的防御过程，具体取决于潜在意图和心理背景，导致标准的词级或句级模型将适应性应对与适应不良的防御混淆。

数据稀缺和类别不平衡进一步加剧了这些困难。通过大型语言模型(LLMs)进行合成增强提供了一种自然的补救措施，然而，如果没有基于心理学的约束，生成模型会产生流畅但在理论上无效的文本，造成虚构的防御，引入噪声并削弱模型可靠性Ji et al. (2023 (https://arxiv.org/html/2605.14380#bib.bib19)); Na et al. (2025 (https://arxiv.org/html/2605.14380#bib.bib27)); Anaby\-Tavor et al. (2020 (https://arxiv.org/html/2605.14380#bib.bib11)); Kumar et al. (2020 (https://arxiv.org/html/2605.14380#bib.bib9))。一个关键点是，基于ESConv数据集Liu et al. (2021 (https://arxiv.org/html/2605.14380#bib.bib14))的PsyDefConv数据集Na et al. (2026b (https://arxiv.org/html/2605.14380#bib.bib28))上的PsyDefDetect共享任务Na et al. (2026a (https://arxiv.org/html/2605.14380#bib.bib26))引入了两个辅助标签：无防御（第0级）和需要更多信息（第8级），这两个标签没有对应的临床防御条目Di Giuseppe and Perry (2021 (https://arxiv.org/html/2605.14380#bib.bib17))。这些标签违反了标准的多类别假设，并产生了偏态分布，使得基于防御条目的特征抽取变得不明确，从而要求对任务进行原则性的重新定义。

我们通过上下文感知的合成增强结合混合特征融合架构，来应对PsyDefDetect共享任务中的这些挑战。具体而言，我们的贡献如下：

- • **基于心理学的增强。** 使用基于压力源锚定、理论驱动的提示以及来自防御机制评定量表(DMRS)的类别特定定义进行合成增强，确保生成高保真样本，证明了提示中的定义质量决定了下游性能。
- • **临床特征工程。** 将来自所有150个防御条目的结构化特征以及基本临床特征，与上下文语言表示融合，架起了临床理论与神经分类之间的桥梁。
- • **强大的低资源基线。** 使用Llama\-3\-8B\-Instruct作为数据生成器，我们的系统在PsyDefConv盲测集上将准确率（从18.01%提升至58.26%）和宏平均F1（从8.63%提升至24.62%）大幅提升，为PDM分类建立了有竞争力的基础。

参见图注图1: 多阶段研究管道概览。该过程始于 (1) 基于LLM的压力源识别，以建立上下文基础；(2) 上下文感知的合成数据增强，以解决类别不平衡；以及 (3) 双域特征提取阶段，针对语言启发式和临床DMRS机制指标；最后进行最终分类。

## 2 方法论

我们通过三个阶段来解决数据稀缺下的PDM分类问题：(1) 一个基于临床理论的上下文感知合成数据增强管道；(2) 一个双域特征提取阶段，结合语言启发式与DMRS衍生的防御画像；以及 (3) 一个混合融合架构，整合上下文语言表示与结构化临床特征 (图1 (https://arxiv.org/html/2605.14380#S1.F1))。

### 2.1 上下文感知的数据增强

标准的增强方法，如释义和回译Wei and Zou (2019 (https://arxiv.org/html/2605.14380#bib.bib10))，在措辞上引入了多样性，但未能保留防御机制的功能角色。我们提出一个基于Llama\-3\-8B\-Instruct的合成数据增强(SDA)管道，该管道捕捉引发防御的心理条件，重点在于功能而非形式。

#### 以压力源为锚点的生成。

防御机制是作为对感知到的压力源的反应而出现的，而非孤立产生。每个提示都锚定在从对话中识别出的关键压力源上，如人际冲突、失业或社交排斥。这种方法促使生成反映现实防御行为的回应，而非泛泛的情绪表达。

#### 理论驱动的提示。

为了控制语义漂移并减少标签不一致，每个提示都使用来自DMRS框架Di Giuseppe and Perry (2021 (https://arxiv.org/html/2605.14380#bib.bib17))的结构化临床细节来定义目标防御等级。这些细节包括防御名称、其正式定义以及常见的语言和行为模式。结合少量示例（附录A.3 (https://arxiv.org/html/2605.14380#A1.SS3)），这种设计将生成引导至表达每种防御理论角色的样本，而非依赖于表面的似是而非Brown et al. (2020 (https://arxiv.org/html/2605.14380#bib.bib6))。

### 2.2 数据质量控制

表1: 各类别的合成数据质量。SB: Self-BLEU Zhu et al. (2018 (https://arxiv.org/html/2605.14380#bib.bib3))（值越低表示词汇多样性越高）；SA: 通过自然语言推理(NLI)蕴含度衡量的语义一致性（值越高表示标签对齐越强）。第7类（高适应性）由于原始样本充足，不进行增强；所有其他类别上限为N=500个合成实例。不受控制的生成可能引入标签噪声和伪影。为缓解这一问题，我们采用两个质量控制步骤。首先，一个软平衡方案将每个少数类别限制为总共500个样本（真实样本加合成样本），这有助于减少对生成特定模式的过拟合。我们考察了五种增强设置：×1、×2、×5、×8和×10，以及500上限的变体。其次，一个机器作为标注器过滤器，应用一个二级分类器来为生成的批次分配标签；仅保留达到Cohen’s Kappa系数κ≥0.60Cohen (1960 (https://arxiv.org/html/2605.14380#bib.bib5))（表示基本一致）的批次（表1 (https://arxiv.org/html/2605.14380#S2.T1)）。

### 2.3 特征提取

每个寻求帮助者的话语由两组互补的特征集表示：(i) 捕捉表面线索的轻量级语言启发式特征，以及 (ii) 编码潜在防御功能的临床基础DMRS衍生特征。

#### 语言与启发式特征。

我们定义了六个轻量级特征，用于区分非防御性（标签0）与防御性响应，这两者经常被混淆：话语长度（叙事详细度的代理）、第一人称代词密度（自我关注度）、洞察力密度（反思性推理）、寒暄标志（简短填充话语）、成熟应对标志（由长度>12、高洞察力以及高第一人称代词触发），以及情感强度（模型对非中性预测的置信度）。

#### DMRS防御画像。

我们使用一个四步指标推断过程来近似潜在的防御功能：

1. 1. **指标评分**：一个NLI模型估计话语T与150个DMRS指标中每个指标Ij之间的蕴含概率P(T⇒Ij)。
2. 2. **机制聚合**：将指标分数分组到30个防御机制中，并进行归一化以形成机制分数S(Mk)。
3. 3. **画像构建**：得到的30维向量定义为话语的防御画像。
4. 4. **等级映射**：通过按DMRS等级聚合机制分数来获得预测的防御等级：ŷ = argmaxℓ Σ_{Mk∈ℓ} S(Mk)。

### 2.4 混合特征融合架构

我们的系统采用后期融合方法整合上下文语言表示与结构化临床特征，具体如下所述：

1. 1. **文本编码器**：MentalRoBERTaJi et al. (2022 (https://arxiv.org/html/2605.14380#bib.bib16)) 将每个实例编码为格式 [压力源：S | 对话轮次：T]，使表示同时依赖于触发上下文和响应，产生一个768维的嵌入。
2. 2. **特征编码器**：启发式特征（7维）和DMRS衍生特征（30维）分别通过一个专用的多层感知器(MLP)，其结构如下：64 → 批量归一化 → ReLU → Dropout (p = 0.3) → 32，产生两个32维向量。
3. 3. **融合与分类**：三个表示被拼接成一个832维向量 (768 + 32 + 32)，并通过两个全连接层 (256→128, ReLU + Dropout (p=0.4)) 和一个最终的线性层，产生一个在9个标签上的概率分布Kiela et al. (2020 (https://arxiv.org/html/2605.14380#bib.bib4))。

## 3 实验与结果

### 3.1 实验设置

#### 数据预处理。

训练语料结合了人工标注的对话以及由Llama\-3\-8B\-Instruct在理论驱动提示下生成的合成样本。我们评估了六种增强规模：×1、×2、×5、×8、×10以及每类硬上限N=500，产生的语料库大小从约1,800到5,100个实例不等。鉴于第7类已有充分的代表性，该类别被排除在增强之外。基线对应于组织者提供的代码使用Llama\-3\-8B\-Instruct重新运行且不做任何增强。¹¹每类指标和DMRS激活模式详见附录A (https://arxiv.org/html/2605.14380#A1)。

#### 实现细节。

模型使用PyTorch实现，并采用Hugging Face Transformers库。MentalRoBERTa (mental\-roberta\-base)Ji et al. (2022 (https://arxiv.org/html/2605.14380#bib.bib16)) 作为文本编码器；其参数以1×10⁻⁶的学习率进行端到端微调。任务特定层（MLP、融合头、分类器）使用更高的学习率1×10⁻⁴，并通过AdamW优化器Loshchilov and Hutter (2019 (https://arxiv.org/html/2605.14380#bib.bib8)) 进行优化。训练最多进行20个epoch，批次大小为16，基于验证集宏平均F1进行早停，权重衰减为1×10⁻²，并使用标签平滑（ε=0.1）以减轻合成样本引入的噪声。

#### 评估指标。

我们遵循Na et al. (2026a (https://arxiv.org/html/2605.14380#bib.bib26)) 中采用的相同协议，并报告所有结果在PsyDefConv开发集和盲测集上的宏平均精确率、召回率和F1值，以及总体准确率，以考虑类别不平衡。

### 3.2 结果分析

表2: 在PsyDefConv官方测试集上的分类性能。* 基线使用Llama\-3\-8B\-Instruct在已发布测试集上重新运行；Na et al. 2026b (https://arxiv.org/html/2605.14380#bib.bib28) 中的原始结果使用了不同的主干。×k：每个少数类别扩大k倍至其原始大小。N=500：每类硬上限500个实例。指标为宏平均。† 官方排行榜提交；所有其他行为已发布测试集上的事后评估。每列最佳结果以粗体显示。#### 不同设置下的分类性能。

我们的提交在官方评估中排名为21个注册团队中的第13位。表2 (https://arxiv.org/html/2605.14380#S3.T2) 报告了在官方盲测集上所有六种增强配置的结果。每种增强变体都显著优于DMRS Co-Pilot，准确率提升（+40.25 pp）和宏平均F1提升（+15.99 pp），证实了理论驱动增强在此低资源环境下相对于纯提示LLM基线能够带来稳健的性能提升。性能在较低增强规模下有所提升，但随着增强变得更加激进而下降。×2配置产生了最高的宏平均F1（27.99%），表明在扩大类别覆盖面和合成生成噪声之间取得了有效平衡。进一步扩大规模导致宏平均F1稳步下降，在×10时降至22.38%，这与高度增强语料库中噪声积累的现象一致Kumar et al. (2020 (https://arxiv.org/html/2605.14380#bib.bib9))。虽然×8记录到最高准确率（58.26%），但其宏平均F1仍比×2低3.37 pp，揭示了总体准确率受到主导类别标签7预测的过大影响，以牺牲少数类别的召回率为代价。

参见图注(a)PsyDefConv官方测试集的标签分布。 (b)我们在官方排行榜提交（PsyDefConv测试集，×8）的行归一化混淆矩阵。

图2: (a) PsyDefConv官方测试集的标签分布，以及 (b) 我们在官方排行榜提交（×8）的行归一化混淆矩阵。标签7在分布中占主导地位（243/472个实例），并在预测中占据了主导，吸收了来自所有其他类别的错误。
#### 标签7的汇聚效应与类别不平衡。

混淆矩阵（图2 (https://arxiv.org/html/2605.14380#S3.F2)b

相似文章

LinguIUTics 在 PsyDefDetect 中的方法：面向心理防御机制分类的迭代不平衡感知 Qwen3-8B 微调

arXiv cs.CL

本文提出了一种迭代不平衡感知微调方法，使用 Qwen3-8B 和 QLoRA 进行心理防御机制分类，在 PsyDefDetect 2026 共享任务中取得了 0.3917 的宏 F1 分数，在 21 支队伍中排名第 4。

PSK@EEUCA 2026：利用合成数据增强微调大型语言模型以检测游戏聊天中的多类毒性

arXiv cs.CL

本文介绍了一个用于 EEUCA 2026 游戏聊天毒性检测共享任务的系统，该系统通过结合合成数据增强微调 Llama 3.1 8B 模型，获得了第四名。文章重点阐述了一种“验证陷阱”现象：由于数据分布偏移，较高的验证分数与测试集表现并不相关。

PAN 2026的DACTYL团队：贝叶斯数据混合与经验X风险最小化在AI文本检测中的应用

arXiv cs.CL

本文介绍了使用贝叶斯数据混合和经验X风险最小化检测AI生成文本的方法，通过ModernBERT-large和MCGrad分类器在OOD检测上取得了高性能。

超越增强：评分引导的病理先验用于基于EEG的抑郁症检测

arXiv cs.LG

本文介绍了评分引导分类（SGC），这是一种利用无监督生成网络对基于EEG的抑郁症检测中的病理先验进行建模的框架，避免了合成数据增强，并提高了分类准确性。

超越静态基准：基于角色模拟合成有害内容以实现鲁棒性评估

arXiv cs.CL

# 超越静态基准：基于角色模拟合成有害内容以实现鲁棒性评估 Source: [https://arxiv.org/html/2604.17020](https://arxiv.org/html/2604.17020) Huije Lee Jisu Shin Hoyun Song Changgeon Ko Jong C\. Park Korea Advanced Institute of Science and Technology \(KAIST\) \{huijelee,jisu\.shin,hysong,pencaty,jongpark\}@kaist\.ac\.kr ###### Abstract 面向有害内容检测的静态基准在可扩展性与多样性方面存在局限，且可能受...

相似文章

LinguIUTics 在 PsyDefDetect 中的方法：面向心理防御机制分类的迭代不平衡感知 Qwen3-8B 微调

PSK@EEUCA 2026：利用合成数据增强微调大型语言模型以检测游戏聊天中的多类毒性

PAN 2026的DACTYL团队：贝叶斯数据混合与经验X风险最小化在AI文本检测中的应用

超越增强：评分引导的病理先验用于基于EEG的抑郁症检测

超越静态基准：基于角色模拟合成有害内容以实现鲁棒性评估

提交意见反馈