基于LLM推理的多视角注意力多示例学习在认知扭曲检测中的应用
摘要
本文提出一个新颖框架,将大语言模型与多示例学习相结合,通过将话语分解为情绪、逻辑和行为三个维度,并使用多视角门控注意力机制来检测心理健康文本中的认知扭曲。该方法在韩文和英文数据集上展现了改进的性能,特别是对于具有高解释歧义性的扭曲。
arXiv:2509.17292v3 公告类型:替换
摘要:认知扭曲与心理健康障碍密切相关,但由于上下文歧义、共现性和语义重叠,其自动检测仍具有挑战性。我们提出了一个新颖框架,结合大语言模型(LLMs)与多示例学习(MIL)架构,以增强可解释性和表达级别的推理能力。每个话语被分解为情绪、逻辑和行为(ELB)三个组成部分,由LLMs处理以推断多个扭曲实例,每个实例都有预测的类型、表达和模型分配的显著性得分。这些实例通过多视角门控注意力机制集成,用于最终分类。在韩文(KoACD)和英文(Therapist QA)数据集上的实验表明,结合ELB和LLM推断的显著性得分可以改进分类性能,特别是对于具有高解释歧义性的扭曲。我们的结果表明了一种在心理健康自然语言处理中进行细粒度推理的心理学基础方法,具有良好的泛化性。数据集和实现细节已公开发布。
查看缓存全文
缓存时间: 2026/04/20 08:31
# 基于LLM推理的多视图注意力多示例学习增强的认知扭曲检测
来源: https://arxiv.org/html/2509.17292
Jun Seo Kim1\*Hyemi Kim2Woo Joo Oh2Hongjin Cho2 Hochul Lee2Hye Hyeon Kim3† 1Gachon University2Korea Telecom Research3Yonsei University kma80kjs@gachon\.ac\.kr \{mika\.kim, woojoo\.oh, as\.df, hochul\.lee\}@kt\.com hye\_hyeon@yonsei\.ac\.kr
###### 摘要
认知扭曲与精神健康障碍密切相关,但由于上下文歧义、共现现象和语义重叠,其自动检测仍存在挑战。我们提出了一个新颖的框架,将大语言模型(LLMs)与多示例学习(MIL)架构相结合,以增强可解释性和表达层级推理。每个话语被分解为情感、逻辑和行为(ELB)三个组成部分,由LLMs处理以推断多个扭曲实例,每个实例包含预测的类型、表达和模型分配的显著性得分。这些实例通过多视图门控注意力机制整合进行最终分类。在韩文(KoACD)和英文(Therapist QA)数据集上的实验证明,纳入ELB和LLM推断的显著性得分可改善分类性能,特别是对于具有高解释歧义的扭曲。我们的结果表明了一种心理学基础且可推广的精神健康NLP细粒度推理方法。数据集和实现细节可公开获取111https://github.com/cocoboldongle/MVACD\.
基于LLM推理的多视图注意力多示例学习增强的认知扭曲检测
††脚注:\*第一作者\.†通讯作者\.表1:所选认知扭曲类型的定义和示例,改编自(Kim和Kim,2025 (https://arxiv.org/html/2509.17292#bib.bib13)\)\.
## 1 引言
精神疾病是一个全球范围内广泛的健康问题。全球大约一半的人口在其一生中会经历精神疾病,任何时刻都有八分之一的人受到影响(McGrathet al\.,2023 (https://arxiv.org/html/2509.17292#bib.bib18); World Health Organization,2022 (https://arxiv.org/html/2509.17292#bib.bib31)\)。焦虑、抑郁和情感表达困难等精神健康问题与认知扭曲密切相关,表明其在情绪困扰的形成和持续中的作用(Mercanet al\.,2023 (https://arxiv.org/html/2509.17292#bib.bib19)\)\.
认知扭曲是指在个体感知和解释外部信息时发生的系统性思维错误,导致与现实不符的消极结论(Beck,1979 (https://arxiv.org/html/2509.17292#bib.bib3)\)。表1 (https://arxiv.org/html/2509.17292#S0.T1)总结了本研究所考虑的一组认知扭曲类型的定义和示例。
受内部因素(如情感和信念)的影响,这些扭曲通过语言或自动思维表达,强化情绪困扰和适应不良行为(Strohmeieret al\.,2016 (https://arxiv.org/html/2509.17292#bib.bib27)\)。认知扭曲在各种精神疾病的发生和维持中发挥了中心作用;因此,识别这些模式通常被认为是治疗过程的重要组成部分(Morrisonet al\.,2015 (https://arxiv.org/html/2509.17292#bib.bib20); Kaplanet al\.,2017 (https://arxiv.org/html/2509.17292#bib.bib11)\)\.
最近,人们开始积极尝试利用大语言模型(LLMs)先进的语言理解和推理能力,自动检测精神健康相关文本中的认知扭曲(Chenet al\.,2023 (https://arxiv.org/html/2509.17292#bib.bib4); Qiet al\.,2023 (https://arxiv.org/html/2509.17292#bib.bib23)\)。然而,大多数现有研究都将话语视为单一、非结构化的输入,对整个文本进行预测,而没有考虑每个话语的内部心理结构。特别是,它们忽视了一个事实,即不同的认知扭曲可能源于话语的不同方面——如情感、逻辑或行为——以及这些组成部分相互作用来塑造扭曲思维的方式。因此,这些心理因素的相互作用通常被代表不足,限制了可解释性和模型推理的粒度。此外,单个话语中常常同时出现多个认知扭曲,类型之间的语义相似性可能导致专家之间的解释差异和建立黄金标准的困难(Suputraet al\.,2023 (https://arxiv.org/html/2509.17292#bib.bib28)\)\.
为了解决这些挑战,我们提出了一个受多示例学习(MIL)结构启发的新型认知扭曲检测框架(Dietterichet al\.,1997 (https://arxiv.org/html/2509.17292#bib.bib5)\),其中话语被定义为一个包,由LLM推断的多个认知扭曲表达中的每一个都被视为一个实例以做出最终决定。每个实例包括预测的扭曲类型、其关联的句子和由LLM分配的显著性得分,该得分通过MIL结构内的加权聚合整合到最终预测中。
此外,我们设计了这项研究,以通过将每个话语分解为三个心理学基础的组成部分——情感、逻辑和行为(ELB)——并将它们与原始文本一起输入到LLM中,来实现更精确和可解释的认知扭曲推理。这种方法超越了之前仅依赖单一文本输入的方法,能够对真实世界话语中复杂、重叠的认知扭曲进行更精确和可解释的预测。
我们的主要贡献总结如下:
1. 1\.我们通过10名心理学家的专家评审,为10种认知扭曲类型获得了高质量的标签。
2. 2\.我们将每个话语结构化为三个心理学基础的组成部分(ELB),并将这些信息纳入LLM输入,以支持更有根据和上下文感知的推理。
3. 3\.我们提出了基于MIL的框架,将每个LLM推断的认知扭曲视为一个实例,将预测的类型和LLM分配的显著性得分整合到统一的分类模型中。
## 2 相关工作
### 2\.1 认知扭曲检测
早期研究将话语视为单一单位,使用语言查询和词数计数特征,以及逻辑回归或支持向量机等模型应用二分类或多分类(Simmset al\.,2017 (https://arxiv.org/html/2509.17292#bib.bib26); Shreevastava和Foltz,2021 (https://arxiv.org/html/2509.17292#bib.bib25)\)。虽然在二分类设置中有效,但这些方法在多分类场景中常常难以处理标签不平衡和语义重叠问题。
为了捕获共现的扭曲,后来的工作引入了多标签分类(Dinget al\.,2022 (https://arxiv.org/html/2509.17292#bib.bib6); Shickelet al\.,2020 (https://arxiv.org/html/2509.17292#bib.bib24); Elsharawi和El Bolock,2024 (https://arxiv.org/html/2509.17292#bib.bib7)\),以及数据增强和领域自适应语言模型。最近,标准化重新注释和教师-学生多任务学习已被用于解决不同数据集之间缺乏泛化的问题(Qiet al\.,2025 (https://arxiv.org/html/2509.17292#bib.bib34)\)。然而,即使在这些最近的研究中,话语仍然被整体处理,没有结构分解。
一些研究纳入了对话上下文,建模多轮交互以提高连续性和预测(Lybargeret al\.,2022 (https://arxiv.org/html/2509.17292#bib.bib16); Tauscheret al\.,2023 (https://arxiv.org/html/2509.17292#bib.bib29)\)。然而,这些模型也缺乏表达级推理,主要关注对话流。
最近,大型LLMs已被应用于认知扭曲检测。思维诊断(DoT)框架引入了一种结构化提示方法以改善可解释性(Chenet al\.,2023 (https://arxiv.org/html/2509.17292#bib.bib4)\)。另一项研究探索了零样本和少样本提示进行扭曲分类,无需监督训练(Qiet al\.,2023 (https://arxiv.org/html/2509.17292#bib.bib23)\)\.
尽管取得了最近的进展,但先前的工作还没有在表达级别建模认知扭曲,也没有将话语内多个扭曲的共现纳入预测中。为了解决这个问题,我们提出了一个框架,将话语分解为最终的ELB组成部分,并在多示例学习设置中推断扭曲作为实例,以实现更可解释和细粒度的分类。
### 2\.2 自然语言处理中的多示例学习
多示例学习(MIL)是一个弱监督框架,其中多个实例被分组为单个包,并在包级别进行预测。最初为生物信息学中的药物活性预测而提出(Dietterichet al\.,1997 (https://arxiv.org/html/2509.17292#bib.bib5)\),MIL后来被应用于计算机视觉任务,如自然场景分类(Maron和Ratan,1998 (https://arxiv.org/html/2509.17292#bib.bib17)\),展示了其在从部分标记数据学习中的灵活性。
在NLP中,MIL已被应用于文档分类、情感分析和虚假信息检测等任务。早期方法采用了机器学习模型,如mi-SVM、MILBoost和其他适应弱监督设置的实例级分类器(Andrewset al\.,2002 (https://arxiv.org/html/2509.17292#bib.bib1); Zhanget al\.,2008 (https://arxiv.org/html/2509.17292#bib.bib32); Jorgensenet al\.,2008 (https://arxiv.org/html/2509.17292#bib.bib10)\)\.
后来的工作用深度架构扩展了MIL,以从文档级标签推断句子级情感。诸如流形正则化(Kotziaset al\.,2014 (https://arxiv.org/html/2509.17292#bib.bib14)\)和加权实例建模(Pappas和Popescu-Belis,2014 (https://arxiv.org/html/2509.17292#bib.bib22)\)等方法改进了可解释性和预测精度。
最近的研究通过整合上下文化的嵌入和注意力机制进一步增强了MIL框架。例如,基于注意力的MIL被应用于虚假新闻检测,提高了精度和可解释性(Karaoğlan,2024 (https://arxiv.org/html/2509.17292#bib.bib12)\),而相互注意力模型被用于解决仇恨言论分类中的包-实例不匹配问题(Liuet al\.,2022 (https://arxiv.org/html/2509.17292#bib.bib15)\)\.
然而,尽管这些进步,NLP中大多数基于MIL的方法在句子或段落级别定义实例,而没有利用更细粒度的语义表示。将LLM推断的表达及其类型和显著性得分纳入MIL还没有被探索过。我们通过提出一个模型来解决这一空白,该模型将每个LLM生成的单位视为一个实例,并将其标签和显著性得分整合到注意力机制的包级分类中。
## 3 数据集
表2:KoACD数据集的统计信息\.表3:Therapist QA数据集的统计信息\.参见图片
图2:从ELB结构化话语推断认知扭曲实例的LLM方法\.
参见图片
图1:话语的基于ELB的心理分解\.
#### KoACD
韩国青少年认知扭曲数据集源自从NAVER知识iN平台收集的咨询文本(Kim和Kim,2025 (https://arxiv.org/html/2509.17292#bib.bib13)\)。对于本研究,我们采样了5,000条话语(每种扭曲类型500条),并与10名具有硕士学位和超过五年工作经验的韩国心理学家进行了专家验证。每条话语由一对专家进行审查以交叉检查原始标签,在移除不一致后,保留了4,510条带有单一验证标签的话语。数据按8:1:1的比例分为训练、验证和测试集,标签分布如表2 (https://arxiv.org/html/2509.17292#S3.T2)所示\.
#### Therapist QA数据集
该数据集由从Kaggle平台上可获得的异步患者-治疗师日志中获得的1,597条专家注释的英文话语组成(Shreevastava和Foltz,2021 (https://arxiv.org/html/2509.17292#bib.bib25)\)。虽然原始数据可能每个话语包含最多两个标签,但我们为每个实例使用了主标签。该数据集涵盖10种扭曲类型,并按8:1:1的比例分割以基准跨语言泛化,如表3 (https://arxiv.org/html/2509.17292#S3.T3)所示。本研究中使用的两个数据集都是公开可用的。
## 4 情感-逻辑-行为提取
为了更好地捕获每个话语的心理背景,我们将其分解为三个组成部分——情感、逻辑和行为(ELB)。这种分解基于CBT认知三角(Beck,1979 (https://arxiv.org/html/2509.17292#bib.bib3)\),用"逻辑"替代"思维"以强调其在认知扭曲中的推理导向性质。这种结构化表示旨在通过使隐藏的心理维度明确化来改善认知扭曲推理的可解释性和粒度,这些维度通常在非结构化文本中纠缠在一起。
如图1 (https://arxiv.org/html/2509.17292#S3.F1)所示,使用基于GPT-4 (OpenAI,2023 (https://arxiv.org/html/2509.17292#bib.bib21)\)的零样本提示策略提取ELB组成部分,该策略被引导为每个话语独立生成三个元素中的每一个。这些提取的组成部分与原始文本相结合,作为下游基于LLM的推理过程的丰富输入,使更上下文感知和心理学基础的预测成为可能。LLM超参数和提示模板分别列在附录B (https://arxiv.org/html/2509.17292#A2)中的表11 (https://arxiv.org/html/2509.17292#A2.T11)和附录F (https://arxiv.org/html/2509.17292#A6)中的表17 (https://arxiv.org/html/2509.17292#A6.T17)。为了确保可靠的生成质量,我们配置LLM生成参数以平衡解释多样性与输出稳定性,并适应包长度的变化。这些设置以开发期间的经验观察为依据,旨在产生一致但足够表达的输出。
## 5 基于LLM的认知扭曲实例推理
为了推断每个话语的多个认知扭曲实例,我们采用了三个LLMs——OpenAI GPT-4o (OpenAI,2023 (https://arxiv.org/html/2509.17292#bib.bib21)\)、Google Gemini 2\.0 Flash (Google DeepMind,2024 (https://arxiv.org/html/2509.17292#bib.bib8)\)和Anthropic Claude 3\.7 Sonnet (Anthropic,2025 (https://arxiv.org/html/2509.17292#bib.bib2)\)。每个模型独立处理相同的话语,使用预提取的ELB组成部分作为输入来推断认知扭曲。每个LLM推断一组包含预测的扭曲类型、对应的文本段和由LLM分配的显著性得分的实例,如图2 (https://arxiv.org/html/2509.17292#S3.F2)所示。由于语义歧义,单个句子可以同时映射到多个扭曲类型,或通过不同的解释。为了评估ELB信息的贡献,我们还使用仅原始话语进行推理。LLM超参数列在表11 (https://arxiv.org/html/2509.17292#A2.T11)中\.相似文章
观看、记忆、推理:基于MLLMs的人类视角视频理解
一篇综述,以人类视角呈现对多模态大语言模型(MLLMs)进行视频理解的研究,围绕观看、记忆和推理能力组织,涵盖挑战、方法和应用。
OmniToM: 通过显式信念建模对大语言模型的心智理论进行基准测试
OmniToM 引入了一个基准测试,通过要求显式提取和标注信念结构来评估大语言模型的心智理论,揭示了尽管模型在端点问答任务上表现强劲,但在跟踪角色特定信念方面存在瓶颈。
MultiSoc-4D:用于诊断孟加拉语社交媒体封闭集大语言模型标注中指令诱导标签崩溃的基准
本文介绍了 MultiSoc-4D,这是一个用于诊断大语言模型在标注孟加拉语社交媒体数据时出现的指令诱导标签崩溃问题的基准测试。研究揭示,大语言模型系统性地倾向于使用默认标签,导致对仇恨言论和讽刺等少数类别的检测不足。
大型语言模型能否模仿人类语音进行临床评估?基于LLM的数据增强方法用于认知评分预测
本文提出了一种基于大型语言模型的数据增强框架,利用GPT-5从书面锚点生成合成口语独白,用于从语音中预测认知评分。一种相似性引导的选择策略持续降低了预测误差,特别是对于少数低分参与者。
一个用于医学大语言模型安全性、鲁棒性和公平性评估的多领域红队框架
本文提出了一个多领域红队框架,用于在690个临床相关场景中评估医学大语言模型的安全性、鲁棒性和公平性。结果表明,高聚合准确率可能掩盖关键失败,而结合临床专家审核的混合评估对于可信的安全性评估是必要的。