心理健康对话中的专家级危机检测
摘要
介绍了CRADLE-Dialogue,一个由临床医生标注的基准数据集,用于心理健康对话中的对话轮次级危机检测,同时包含Alert–Confirm评估协议、合成训练语料库以及一个32B参数模型,该模型在性能上优于现有的开放源代码和专有模型。
查看缓存全文
缓存时间: 2026/06/10 06:10
# 心理健康对话中的专家级危机检测 来源:https://arxiv.org/html/2606.10380 Grace Byun¹, Abigail Lott², Rebecca Lipschutz², Sean T. Minton², Elizabeth A. Stinson², Jinho D. Choi¹ ¹计算机科学系,埃默里大学 ²精神病学与行为科学系,埃默里大学 \{gbyun, abigail.lott, rebecca.lipschutz, stminto, elizabeth.ashley.stinson, jinho.choi\}@emory.edu ###### 摘要 现实世界中的危机干预本质上是对话式的,然而现有研究主要聚焦于静态文本。当应用于多轮对话时,当前模型性能显著下降,难以追踪随着上下文演变而出现的风险信号。为解决这一差距,我们引入了 **CRADLE-Dialogue**,一个面向对话设置的轮次级危机检测临床专家标注基准。该数据集包含 600 段对话,具有基于临床风险的多标签标注,涵盖自杀意念、自伤和儿童虐待等,并区分了过往风险与当前风险。我们进一步提出了一个 **Alert–Confirm** 评估协议,该协议区分早期预警信号(Alert)和某个危机变得明确可识别的轮次(Confirm),反映了在风险明确之前进行干预的临床需求。实验表明,识别风险*何时*出现比识别风险*存在*要困难得多:模型的 Micro F1 仅处于 40% 中段到 60% 高段。此外,我们发布了一个合成训练语料库和一个 32B 参数模型,该模型显著优于现有开源模型,并在轮次级、对话级和仅确认评估设置中与专有模型相比具有竞争力或更优的结果。 **警告:**本文涉及敏感话题,如自杀意念、自伤、强奸、家庭暴力和儿童虐待。 心理健康对话中的专家级危机检测 Grace Byun¹, Abigail Lott², Rebecca Lipschutz², Sean T. Minton², Elizabeth A. Stinson², Jinho D. Choi¹ ¹计算机科学系,埃默里大学 ²精神病学与行为科学系,埃默里大学 \{gbyun, abigail.lott, rebecca.lipschutz, stminto, elizabeth.ashley.stinson, jinho.choi\}@emory.edu ## 1 引言 大型语言模型(LLMs)越来越多地应用于心理健康相关场景,包括作为心理咨询助手和旨在提供情感指导或分诊的对话代理(Nguyen 等人, 2025 (https://arxiv.org/html/2606.10380#bib.bib13); Ozgun 等人, 2025 (https://arxiv.org/html/2606.10380#bib.bib16); Liu 等人, 2023 (https://arxiv.org/html/2606.10380#bib.bib11))。在这些场景中,安全性不仅依赖于富有同理心的回应,还依赖于识别具有临床意义的危机信号,如自杀意念、自伤、性暴力或儿童虐待。这一区别在多轮对话中至关重要,因为危机披露通常是通过间接暗示、部分披露和澄清而非明确陈述逐步展现的。因此,代理必须同时推理*存在何种*风险以及风险*何时*变得显著。然而,现有研究严重聚焦于静态文本。此外,当应用于对话时,当前模型表现出严重的性能下降。LLMs 难以处理隐含信号(Li 等人, 2025 (https://arxiv.org/html/2606.10380#bib.bib10)),表现出夸大的安全行为(Guo 等人, 2025 (https://arxiv.org/html/2606.10380#bib.bib7)),并在长时间交互中丢失上下文(Pombal 等人, 2025 (https://arxiv.org/html/2606.10380#bib.bib17); Tang 等人, 2025 (https://arxiv.org/html/2606.10380#bib.bib22))。其结果是,它们忽略了早期预警,过度升级模棱两可的线索,并且未能追踪不断演变的风险。为填补这一空白,我们引入了 **CRADLE-Dialogue**,一个面向对话中轮次级危机与安全检测的临床专家标注基准。我们从真实的 Reddit 高风险帖子出发,构建了 600 段多轮对话(8,975 个轮次),这些对话模拟了七种临床基础场景及受控披露时机下的真实披露模式。随后,由临床专家对对话进行轮次级多标签危机标注,确保标签的高质量并植根于临床专业知识。为了在真实的干预条件下评估模型,我们提出了一个 **Alert–Confirm** 协议,该协议将早期、类型无关的预警信号(Alert)与特定危机类型变得可识别的后续轮次(Confirm)区分开来。这一框架使我们能够衡量模型不仅能否检测危机相关内容,还能否追踪从初步忧虑到临床可行动的识别的发展过程。通过在对话级、轮次级和仅确认设置中的广泛评估,我们发现尽管最先进的 LLMs 在整体对话级检测中表现尚可,但它们难以定位风险出现的具体轮次。它们经常遗漏早期预警,过度确认模棱两可的语言,并混淆时间状态。我们通过构建一个高质量的轮次级危机推理合成训练数据集,并发布一个专门的危机检测模型来应对这些挑战。通过有效追踪风险在轮次间的演变,我们的模型在所有评估设置中均表现出色,优于现有开源基线,并与领先的专有系统相比具有竞争力或更优的结果。我们的贡献总结如下: - • 我们提出了 **CRADLE-Dialogue**,一个临床专家标注的轮次级危机基准。 - • 我们提出了 **Alert–Confirm** 协议,该协议将早期风险检测与精确的危机识别区分开来。 - • 我们发布了一个高质量的合成训练语料库和一个专门的 32B 模型,该模型显著优于现有基线。 ## 2 相关工作 ##### 心理健康危机与自杀意念检测。 RSD-15K(Zheng 等人, 2025 (https://arxiv.org/html/2606.10380#bib.bib28)),一个基于 Reddit 的数据集,包含专家导出的用户级自杀风险标签,使得超出帖子级分类的更强建模成为可能。SHINES 数据集(Ghosh 等人, 2025 (https://arxiv.org/html/2606.10380#bib.bib4))通过引入细微的语言线索和基于表情符号的意图,进一步推动了自伤检测,而 SuicideED(Guzman-Nateras 等人, 2022 (https://arxiv.org/html/2606.10380#bib.bib8))则专注于自杀相关事件(包括意念、尝试和保护因素)的事件级标注。除了自杀倾向之外,Garg 等人 (2023 (https://arxiv.org/html/2606.10380#bib.bib3)) 提出了 LoST 数据集,该数据集通过心理学视角的标注,捕捉了低自尊和人际需求,这些是心理困扰的重要上游信号。最近,CRADLE Bench(Byun 等人, 2026 (https://arxiv.org/html/2606.10380#bib.bib2))提出了一个临床专家标注的基准,涵盖了自伤、家庭暴力和自杀意念等危机。 ##### 心理健康对话生成。 由于真实的临床对话可能存在隐私问题,近期的工作转向利用 LLMs 生成逼真的心理健康对话。SQPsych(Vu 等人, 2025 (https://arxiv.org/html/2606.10380#bib.bib24))使用结构化的患者档案和问卷分数来条件化基于 GPT 的模型,以生成多轮治疗师-来访者对话,并受 CBT 原则指导。PsyDial(Qiu 和 Lan, 2025 (https://arxiv.org/html/2606.10380#bib.bib19))引入了一种保护隐私的“检索-掩码-重构-精炼(RMRR)”方法,从一个小种子集生成逼真的咨询对话。Sun 等人 (2025 (https://arxiv.org/html/2606.10380#bib.bib21)) 探讨了将 LLM 生成的治疗对话与既定的咨询策略(聚焦于动机性访谈 MI)对齐。多项研究(Xu 等人, 2025 (https://arxiv.org/html/2606.10380#bib.bib26))使用 LLMs 生成基于真实转录、问卷或患者信息的对话。 ##### 咨询与治疗对话数据集。 Psych8k(Liu 等人, 2023 (https://arxiv.org/html/2606.10380#bib.bib11))和 SMILE(Qiu 等人, 2024 (https://arxiv.org/html/2606.10380#bib.bib18))提供了心理健康咨询数据的存储库。Psych8k 由源自真实咨询会话的指令微调问答对组成,而 SMILE 提供中文多轮对话。为了更好地与临床框架对齐,CACTUS(Lee 等人, 2024 (https://arxiv.org/html/2606.10380#bib.bib9))和 CBT-LLM(Na, 2024 (https://arxiv.org/html/2606.10380#bib.bib12))融入了认知行为疗法(CBT)原则,专注于重构消极认知而非安全关键的危机检测。HealMe(Xiao 等人, 2024 (https://arxiv.org/html/2606.10380#bib.bib25))也借鉴了 CBT 启发的认知重构,引导用户区分情境与情绪,并发展替代视角,但其关注点在于治疗性重构的有效性,而非追踪整个对话中不断升级的安全信号。 ## 3 CRADLE-Dialogue 基准 ### 3.1 对话设计 参阅说明 图 1:数据生成与专家验证流程示例。该图说明了如何将 Reddit 帖子转换为对话,通过推理进行精炼,并由专家进行验证以确保危机一致性和质量。 ##### 对话生成设置。 我们使用 GPT-5(OpenAI, 2025 (https://arxiv.org/html/2606.10380#bib.bib14))进行对话生成。来自 CRADLE Bench(Byun 等人, 2026 (https://arxiv.org/html/2606.10380#bib.bib2))的每个 Reddit 帖子作为一个输入实例,并根据分配的危机标签和场景描述,转换成一个平均 15 轮次的对话。完整提示见附录 A.1 (https://arxiv.org/html/2606.10380#A1.SS1)。 表 1:用于危机情境生成的七种对话场景定义。 ##### 对话情境多样化的场景分配。 为了增强真实感和情境多样性,我们采用了一个基于场景的框架,反映常见的心理健康披露场景。七种原型场景(S1–S7;表 1 (https://arxiv.org/html/2606.10380#S3.T1))代表了不同的互动情境,如治疗、医疗咨询、支持论坛和在线普通讨论。如附录 A.3 (https://arxiv.org/html/2606.10380#A1.SS3) 中的表 8 (https://arxiv.org/html/2606.10380#A1.T8) 所示,每种危机类型都根据临床披露模式被映射到一组可行的场景,该映射由与一位持证临床医生协商确定。对于过去时态的危机标签(例如,*强奸过往*、*家庭暴力过往*),我们排除了即时干预场景(S4, S5),因为这些场景假定急性危机响应在回顾性情境中不再适用。对于具有多个危机标签的帖子,我们从所有可行集的交集中分配一个场景,如果不存在交集,则降级到并集中出现频率最低的选项。这产生了近似均匀的场景分布(S1: 96, S2: 97, S3: 91, S4: 67, S5: 56, S6: 97, S7: 96 个对话)。 ##### 危机披露时机控制。 为了模拟个体在对话中披露危机方式的自然变化,我们随机分配披露时机,即危机内容变得明确的对话轮次。对于每个 Reddit 帖子,使用固定种子采样一个 \([0,1]\) 范围内的随机值以保证可复现性。帖子随后被分为三个大小相等的组:*早期*(危机出现在轮次 1–3)、*中期*(轮次 4–6)和*晚期*(轮次 ≥ 7)。这确保了生成的对话展示出多样化的时间披露模式,而不是一致地在开头就揭示危机。这种变化更好地反映了现实世界中寻求帮助的对话,其中个体可能突然、逐渐或仅在建立足够融洽关系后披露敏感信息,并且使我们能够评估模型是否能在对话披露的不同阶段识别危机。 ### 3.2 标注过程 ##### 专家标注 标注工作由一个由四名在创伤评估和治疗方面具有专业知识的心理健康专业人员组成的团队完成:两名持证心理学家、一名临床心理学博士后住院医师和一名持证临床社会工作者。专家们标注了包含 8,975 个轮次的 600 段对话。为确保可靠性,标注工作由两个独立的团队轮流进行,所有标签均在轮次级分配。标注者识别*心理健康危机*,即说话者面临严重伤害风险并可能需要临床或专业干预的情况,同时排除一般的情绪困扰或非临床困难。标签方案反映了具有临床意义的危机类别以及符合临床指南的时间区分。详见附录 B (https://arxiv.org/html/2606.10380#A2)。 ##### 裁决 对于标注存在分歧的对话(危机标注轮次上的 Cohen's κ = 0.51–0.75),我们采用多步裁决程序。首先,来自未参与初始标注的备用团队的一名专家,在无法访问原始标签的情况下,独立重新标注所有存在冲突的轮次。其次,最终标签由三位标注者的多数投票决定。如果三位标注者的标注均不同,则使用最资深专家(一名持证心理学家和教授)分配的标签作为最终标签。详见附录 B.2 (https://arxiv.org/html/2606.10380#A2.SS2)。 ### 3.3 Alert–Confirm 协议 在实践中,危机披露通常是逐渐出现的,而不是在开始时明确显现。为捕捉这一点,我们设计了一个 **Alert–Confirm** 协议,该协议为每个危机事件分配两个事件级标注:1) **Alert**,位于可能出现危机的最早模糊指示处;2) **Confirm**,位于特定危机类型变得明确可识别时。每个具有相同危机类型和时间状态的事件在一个对话中最多获得一个 Alert 和一个 Confirm。Alert 标签与危机类型无关,仅关注时间状态。因为早期风险信号通常过于模糊而无法进行特定分类,这种设计避免了强制分类和标注者之间的分歧。通过推迟子类型决策,该标签更好地与优先考虑风险识别而非即时诊断的临床工作流对齐。 ### 3.4 数据统计 ##### Alert 和 Confirm 表 2 (https://arxiv.org/html/2606.10380#S3.T2) 总结了数据集统计信息和标签分布。该数据集包含 600 段对话,共计 8,975 个轮次,共有 713 个危机标签。在 600 个对话中,226 个(37.7%)包含至少一个 Alert 标签,而 417 个(69.5%)包含一个 Confirm 标签。在包含 Alert 的对话中,有 203 个(超过 90%)也包含 Confirm,表明早期预警信号通常在同一对话中后续被明确的危机识别所跟进。相比之下,160 个对话(26.7%)既不包含 Alert 也不包含 Confirm,提供了非危机对话情境。数据集在 600 个对话中包含 713 个危机标签,反映了标注方案的多标签性质,即单个对话中可能发生多个危机事件。平均每个对话包含 1.18(±0.89)个标签,其中每个对话包含 0.38(±0.50)个 Alert 和 0.79(±0.61)个 Confirm。 表 2:数据集整体大小,以及 Alert 和 Confirm 标签在 600 个对话中的存在性、共现性和密度。 ##### 危机类型 表 3 (https://arxiv.org/html/2606.10380#S3.T3) 展示了轮次级分布。相似文章
Psy-Chronicle: 一种合成长时序校园心理咨询对话的结构化流程
本文介绍了Psy-Chronicle,一个用于合成长时序校园心理咨询对话的结构化框架,并发布了CPCD,一个包含90,000个跨多次会话对话的中文数据集,以及一个用于评估模型长时序咨询能力的基准测试。
临床访谈抑郁检测基准的多探针审计
本文通过四个互补探针对五个数据集(DAIC/E-DAIC、CMDC、ANDROIDS、MODMA和PDCH)中的临床访谈抑郁检测基准评估进行审计,发现标准评估协议可能高估模型性能,且排行榜排名缺乏稳定性。
强化 ChatGPT 在敏感对话中的回复
# 强化 ChatGPT 在敏感对话中的回复 来源: [https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/](https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/) 我们最近更新了[ChatGPT 的默认模型](https://help.openai.com/en/articles/9624314-model-release-notes),以便更好地识别并支持处于困境中的用户。今天我们分享了我们如何进行这些改进以及如何
MTR-Suite:一个用于评估和合成对话检索基准的框架
介绍MTR-Suite,一个用于评估和合成对话检索基准的统一框架,具备基于LLM的审计器、用于成本效益对话生成的多智能体流水线,以及一个具有高区分度的基准。
一种基于智能体的LLM框架用于大规模人群心理健康筛查
提出了一种使用LangChain智能体的智能体框架,用于大规模人群心理健康筛查,重点关注从临床转录中检测抑郁症。该框架逐步锁定已验证的阶段,并使用代理引导的评估来确保可信度和适应性。