CUNY在CLPsych 2026中的工作:一种用于心理健康变化分类与总结的流水线方法
摘要
CUNY在CLPsych 2026共享任务中的提交采用了一种流水线方法,结合了上下文学习与开放权重大型语言模型、监督分类器和检索增强生成,用于从Reddit时间线中分类和总结心理健康变化,在多个子任务中取得了最高排名。
arXiv:2605.24164v1 Announce Type: new
摘要:我们描述了我们提交至CLPsych~2026共享任务的内容,该任务旨在通过社交媒体时间线动态捕捉和表征心理健康变化。为了推断帖子中的主要自我状态(任务1.1和1.2),我们使用多数投票集成三个开放权重大型语言模型的上下文学习。为了预测时间线中的变化时刻(任务2),我们基于任务1.1预测的特征训练监督分类器。为了总结时间线内情绪动态的模式及其随时间的变化(任务3.1),我们增强了由上游系统(任务1.1、1.2和2)预测的上下文示例标签,相比零样本和未增强的上下文学习基线获得了性能提升。我们的提交在任务1.1上排名第一,任务1.2上排名第四,任务2上排名第四,任务3.1上排名第三。\footnote{实验源代码可在 https://github.com/amirzia/clpsych26-cuny 获取。}
查看缓存全文
缓存时间: 2026/05/26 09:00
# CUNY 在 CLPsych 2026 上的方案:一种用于心理健康变化分类与摘要的流水线方法 来源:https://arxiv.org/html/2605.24164 Amirmohammad Ziaei Bideh†\dagger, Shameed Charlomar Job‡\ddagger, Ava Yahyapour††\dagger,Alla Rozovskaya†‡\dagger\ddagger †\dagger计算机科学系,CUNY 研究生中心 ‡\ddagger语言学系,CUNY 研究生中心 aziaeibideh@gradcenter\.cuny\.edu ###### 摘要 我们描述了我们对 CLPsych 2026 共享任务的提交方案,该任务旨在通过社交媒体时间线动态来捕捉和表征心理健康变化。为了推断帖子中的主导自我状态(任务 1.1 和 1.2),我们使用多数投票集成三个开放权重大型语言模型的上下文学习。为了预测时间线中的变化时刻(任务 2),我们在来自任务 1.1 预测的特征上训练有监督的分类器。为了总结时间线内情绪动态的模式及其随时间的变化(任务 3.1),我们用上游系统(任务 1.1、1.2 和 2)预测的标签来增强上下文示例,相比零样本和未增强的上下文学习基线获得了性能提升。我们的提交在任务 1.1 上排名第一,任务 1.2 上排名第四,任务 2 上排名第四,任务 3.1 上排名第三。111实验源代码可在 https://github.com/amirzia/clpsych26-cuny 获得。 \\UseRawInputEncoding CUNY 在 CLPsych 2026 上的方案:一种用于心理健康变化分类与摘要的流水线方法 Amirmohammad Ziaei Bideh†\dagger, Shameed Charlomar Job††thanks:同等贡献。‡\ddagger,Ava Yahyapour†\dagger,Alla Rozovskaya†‡\dagger\ddagger†\dagger计算机科学系,CUNY 研究生中心‡\ddagger语言学系,CUNY 研究生中心aziaeibideh@gradcenter\.cuny\.edu ## 1 引言 心理健康状况影响着全球相当一部分人口世界卫生组织 (2013 (https://arxiv.org/html/2605.24164#bib.bib6));美国国家心理健康研究所 (NIMH) (2024 (https://arxiv.org/html/2605.24164#bib.bib7)),这使得我们需要可扩展的工具来监控个体随时间的心理状态。社交媒体平台提供了纵向数据,可用于追踪心理状态如何响应生活事件和社交互动而演变 Tsakalidis 等人 (2022 (https://arxiv.org/html/2605.24164#bib.bib3)),而大型语言模型 (LLM) 在支持此类分析方面显示出巨大潜力 Yang 等人 (2024 (https://arxiv.org/html/2605.24164#bib.bib17));Chan 等人 (2025 (https://arxiv.org/html/2605.24164#bib.bib13))。最近的实践导向研究进一步展示了多模态分析和 AI 如何揭示治疗变化背后的个体内和人际动态 Atzil-Slonim (2026 (https://arxiv.org/html/2605.24164#bib.bib5))。CLPsych 2026 共享任务 Ali 等人 (2026 (https://arxiv.org/html/2605.24164#bib.bib1)) 通过要求参与者追踪和表征用户心理状态在纵向 Reddit 时间线上的演变,来满足这一需求。 本文描述了我们对 CLPsych 2026 共享任务 Ali 等人 (2026 (https://arxiv.org/html/2605.24164#bib.bib1)) 的提交方案。我们在任务 1.1 上的最佳提交使用了七个 LLM 预测的集成,这些预测基于三个模型主干,并采用子元素级上下文学习 (ICL),其中带注释的训练示例直接包含在提示中以指导预测。对于任务 1.2,我们使用 ICL 和检索增强生成 (RAG) 集成五个预测,RAG 会检索语义最相似的训练帖子作为上下文演示。对于任务 2,我们在来自上游任务预测的自我状态特征上训练有监督的分类器,使用支持向量机 (SVM) 检测切换,使用随机森林 (RF) 检测升级。对于任务 3.1,我们的最佳提交使用标签增强的 ICL,用来自上游任务预测的 ABCD 子元素和变化时刻 (MoC) 标签来丰富提示。对于任务 3.2,我们应用批处理与合并流水线来识别跨时间线的改善和恶化复发动态信号。我们的提交在任务 1.1 上排名第一,在任务 1.2 上排名第四,在任务 2 上排名第四,在任务 3.1 上排名第三。 我们工作的贡献如下: 1. 我们展示了通过多数投票进行 LLM 集成在子元素分类(任务 1.1)上显著优于单模型基线,并且将集成成员扩展到五个以上能进一步改善子元素分类但会略微损害存在性评分(任务 1.2),这表明在序数预测任务上更大的集成存在收益递减。 2. 我们表明升级比切换更容易预测,并且基于 LLM 推导的存在性评分训练的传统有监督分类器在 MoC 检测(任务 2)上具有竞争力。 3. 我们发现将来自上游任务预测的自我状态标签传播到下游提示中,并使用更大的模型,能在摘要质量上持续优于使用较小模型的零样本提示和标准 ICL 基线(任务 3.1)。 ## 2 共享任务描述 该共享任务基于多模态个体内和人际动态 (MIND) 框架 Atzil-Slonim (2025 (https://arxiv.org/html/2605.24164#bib.bib4))。该框架包含了患者心理状态中广泛使用的心理治疗构念,称为自我状态。自我状态是一种主导的体验模式,由情感、行为、认知和欲望 (ABCD) 组件及其适应性水平和更细粒度的子分类(子元素)组成 Atzil-Slonim (2025 (https://arxiv.org/html/2605.24164#bib.bib4))。 任务 1.1 旨在识别一个帖子中表达了哪些预定义的 ABCD 子元素,以及它们如何组合成适应性和非适应性自我状态,即自我状态的两种效价。任务 1.2 要求量化每个被识别的自我状态在帖子中的存在程度,范围为 1-5(称为存在性得分)。任务 2 涉及检测用户时间线中临床上有意义的 MoC,222*时间线*是一个用户按时间顺序编写的帖子集合。识别切换(幸福感的突然变化)和升级(情绪的逐渐加剧) Tsakalidis 等人 (2022 (https://arxiv.org/html/2605.24164#bib.bib3))。任务 3.1 涉及生成一个结构化摘要,描述围绕一个已识别变化事件的帖子序列中自我状态动态的演变过程。任务 3.2 旨在识别跨多个序列和个体的改善和恶化复发动态信号。 #### 数据集。 训练集包含来自 30 个用户的 Reddit 时间线,根据 MIND 框架进行自我状态注释。图 3 (https://arxiv.org/html/2605.24164#A5.F3) 显示了一个匿名化摘录的示例时间线。训练集还提供了序列的黄金标准摘要,描述了自我状态动态的模式。序列是一个时间线中按时间顺序排列的帖子列表,最终导致一个 MoC。我们随机保留 10 个训练时间线作为我们的验证集,用于选择提交的最佳模型。20 个时间线用于训练和提供上下文示例。 ## 3 相关工作 以往的 CLPsych 共享任务吸引了广泛的系统提交。在 CLPsych 2022 Tsakalidis 等人 (2022 (https://arxiv.org/html/2605.24164#bib.bib3)) 中,团队 BLUE Bucur 等人 (2022 (https://arxiv.org/html/2605.24164#bib.bib25)) 实验了几种文本表示方法,其最佳系统是机器学习 (ML) 分类器的集成。团队 WResearch Bayram 和 Benhiba (2022 (https://arxiv.org/html/2605.24164#bib.bib26)) 采用了一种流水线方法,其中使用预训练的 BERT Devlin 等人 (2019 (https://arxiv.org/html/2605.24164#bib.bib28)) 计算情绪和情感分数,这些分数作为输入特征传递给下游的 ML 模型。团队 UoS Azim 等人 (2022 (https://arxiv.org/html/2605.24164#bib.bib27)) 使用双向长短期记忆 (Bi-LSTM) 网络进行情绪变化预测和自杀风险水平评估,取得了有竞争力的结果。 次年的版本,CLPsych 2025 Tseriotou 等人 (2025 (https://arxiv.org/html/2605.24164#bib.bib2)),引入了更具挑战性的子任务,如证据跨度检测和摘要。团队 uOttawa Chan 等人 (2025 (https://arxiv.org/html/2605.24164#bib.bib13)) 在 70B 参数 LLM 的基础上探索了各种提示工程策略,并在自我状态识别上获得了最佳得分。团队 BULUSI Ravenda 等人 (2025 (https://arxiv.org/html/2605.24164#bib.bib29)) 通过结合集成和在 LLM 预测之上的优化步骤取得了强劲的结果。最后,团队 BLUE Sandu 等人 (2025 (https://arxiv.org/html/2605.24164#bib.bib30)) 通过对开放权重 LLM 进行零样本提示,在摘要任务上获得了有竞争力的性能。 ## 4 方法 本节介绍我们的方法,这些方法整合了 CLPsych 2025 共享任务的发现,并进一步优化和精炼策略。 ### 4.1 任务 1.1 和 1.2 我们采用联合预测设置,其中 LLM 在一次推理中同时预测子元素及其存在性得分。默认系统提示 (图 4 (https://arxiv.org/html/2605.24164#A5.F4)) 包含 MIND 框架的详细描述、自我状态的定义、每个子元素的特征以及分配存在性得分的标准。我们比较了几种提示技术。 **零样本提示。** 我们使用默认系统提示,并在用户消息中传入待标注帖子的内容。 **帖子级上下文学习 (ICL)。** 此处,kk 个随机选择包含黄金标准子元素标注的训练帖子被包含在提示中。这使得 LLM 暴露于每个子元素的上下文环境以及帖子内子元素之间的关系。缺点是它不能保证覆盖所有子元素,稀有子元素可能不会出现在上下文示例中。 **带有 RAG 的帖子级 ICL。** 与帖子级 ICL 相同,但 kk 个上下文帖子是通过余弦相似度从训练集中检索最相似的测试帖子得到的。帖子被编码为来自 BAAI/bge-large-en-v1.5 Xiao 等人 (2023 (https://arxiv.org/html/2605.24164#bib.bib20)) 的 L2 归一化 CLS 嵌入,截断到 512 个 token。 **子元素级 ICL。** 在子元素级 ICL 变体中,我们将 kk 个示例附加到系统提示中每个子元素的定义后。每个示例是来自训练帖子的相关跨度,作为对应子元素的证据。注意,在此设置中,我们不包含完整帖子。此外,给定子元素的 kk 个示例可能来自不同的训练帖子,提供了该子元素如何表达的更多样化视图。 **集成。** 为了减少单一预测的噪声,我们通过多数投票聚合多个独立 LLM 运行的输出。 ### 4.2 任务 2 我们使用由任务 1.1 和 1.2 中预测的子元素和存在性得分组成的特征集,分别训练用于切换和升级变化的有监督分类器。每个分类器接收一个固定大小的帖子窗口,窗口中心位于目标帖子。窗口包括先前的和后续的帖子;我们将包含后续帖子的窗口称为具有前瞻性。序列中的每个帖子都被标记为任务 1.1 和 1.2 最佳提交的预测。我们实验了以下特征:每个效价的预测存在性、目标帖子与后续帖子之间每个效价存在性的绝对差值、每个效价的子元素计数以及帖子索引。我们比较了两种机器学习算法:支持向量机 (SVM) 和随机森林。分类器在验证期间使用 20 个帖子训练(测试期间使用全部 30 个帖子),并通过网格搜索进行调优 (附录 B.2 (https://arxiv.org/html/2605.24164#A2.SS2))。 ### 4.3 任务 3.1 我们采用 LLM 提示方法进行任务 3.1。我们用于该任务的系统提示 (图 8 (https://arxiv.org/html/2605.24164#A5.F8)) 包含 MIND 框架的详细描述、切换和升级的定义以及所需的摘要方面。我们还实验了这个提示的缩短版本 (图 9 (https://arxiv.org/html/2605.24164#A5.F9)),但观察到性能差异可忽略不计,因此所有报告的结果都使用较长的提示。用户提示包含按时间顺序排列的测试序列帖子内容。我们比较了以下方法: **零样本。** LLM 直接从任务描述和帖子内容生成摘要,无需上下文示例。 **ICL。** 系统提示被增强 kk 个上下文示例。每个示例由一个训练序列的帖子内容及其相应的黄金标准摘要组成。 **标签增强的 ICL。** 这是一种流水线风格的 ICL 扩展,其中子元素和变化标签(切换或升级)与帖子内容一起包含在内。我们考虑两种变体:(i) 仅用黄金标准标签增强上下文示例,(ii) 另外用来自我们任务 1.1 和任务 2 系统的预测标签增强测试帖子。图 1 (https://arxiv.org/html/2605.24164#S4.F1) 展示了完整的流水线。 参见标题图 1:任务 3.1 的标签增强 ICL 流水线。帖子序列通过任务 1.1 产生子元素,通过任务 2 产生 MoC 标签。两组标签都丰富了提供给 LLM 的提示。提交 3 仅用黄金标准标签增强上下文示例。提交 4 在推理时另外用来自任务 1.1 和 2 的预测标签增强测试帖子。**摘要的摘要。** 在此方法中,单个 LLM 首先单独总结每个帖子,然后从这些每帖子摘要中总结序列。 方法kkqwengemmagpt集成F1↑\\uparrowRMSE↓\\downarrowF1↑\\uparrowRMSE↓\\downarrowF1↑\\uparrowRMSE↓\\downarrowF1↑\\uparrowRMSE↓\\downarrow零样本–0\.3091\.1240\.3240\.9260\.3400\.9080\.3300\.913子元素 ICL10\.3281\.0270\.3350\.8600\.3430\.9480\.3470\.85220\.3621\.0570\.3410\.8600\.3260\.9480\.3610\.86130\.3330\.9980\.3540\.8310\.3390\.8880\.3660\.787帖子 ICL10\.3311\.0720\.3300\.8770\.3110\.9390\.3350\.86720\.3341\.1030\.3480\.8670\.2970\.9630\.3370\.88030\.3301\.0470\.3360\.8600\.3070\.9710\.3320\.859RAG10\.3371\.0480\.3680\.9200\.3090\.9140\.3300\.89820\.3251\.0700\.3260\.8580\.3130\.9550\.3330\.90330\.3321\.0280\.3270\.8530\.3190\.9530\.3420\.876表 1:任务 1.1 和 1.2 的验证结果,平均 5 次运行。kk 是上下文示例的数量。 ### 4.4 任务 3.2 在提示 LLM 识别改善或恶化复发信号之前,我们通过精确字符串匹配过滤 74 个黄金训练摘要,得到 56 个恶化和 51 个改善序列。这些序列以 10 个为一批传递给 LLM,产生部分信号,然后在最后一步合并,以识别跨批次共有的模式。 ## 5 结果 本节提供实验结果。我们使用以下开放权重 LLM 进行提示:google/gemma-3-27b-it (gemma) Gemma 团队 (2025 (https://arxiv.org/html/2605.24164#bib.bib22));Qwen/Qwen3.5-27B (qwen) Qwen 团队 (2026 (https://arxiv.org/html/2605.24164#bib.bib23));和 openai/gpt-oss-120b (gpt) OpenAI (2025 (https://arxiv.org/html/2605.24164#bib.bib24))。参见附录 A (https://arxiv.org/html/2605.24
相似文章
DreamerNLplus:使用混合规则和RAG方法从社交媒体时间线对心理健康动态进行可解释建模
本文介绍了DreamerNLplus,这是一个混合框架,结合了LLM、DeBERTa、随机森林、规则方法和RAG,用于从社交媒体时间线对心理健康动态进行建模,以应对CLPsych 2026共享任务,在时间摘要和变化检测的子任务中取得了最高排名。
Psy-Chronicle: 一种合成长时序校园心理咨询对话的结构化流程
本文介绍了Psy-Chronicle,一个用于合成长时序校园心理咨询对话的结构化框架,并发布了CPCD,一个包含90,000个跨多次会话对话的中文数据集,以及一个用于评估模型长时序咨询能力的基准测试。
基于大语言模型的社交媒体抑郁风险评估
研究者提出一种零样本LLM系统,通过Reddit帖子评估抑郁风险,在F1得分上表现优异,展示了可扩展的心理健康监测能力。
LaMSUM: 通过LLM引导的提取式摘要放大针对骚扰的声音
LaMSUM是一个新颖的多层次框架,使用LLM为公民举报平台生成大量骚扰事件报告的提取式摘要。该方法优于最先进的提取式摘要方法,并解决了有限的LLM上下文窗口和代码混合语言处理等挑战。
一种基于智能体的LLM框架用于大规模人群心理健康筛查
提出了一种使用LangChain智能体的智能体框架,用于大规模人群心理健康筛查,重点关注从临床转录中检测抑郁症。该框架逐步锁定已验证的阶段,并使用代理引导的评估来确保可信度和适应性。