一种基于智能体的LLM框架用于大规模人群心理健康筛查

arXiv cs.AI 2026/05/14 04:00 论文

mental-health agentic-framework llm langchain clinical-text depression-detection population-screening

摘要

提出了一种使用LangChain智能体的智能体框架，用于大规模人群心理健康筛查，重点关注从临床转录中检测抑郁症。该框架逐步锁定已验证的阶段，并使用代理引导的评估来确保可信度和适应性。

arXiv:2605.13046v1 Announce Type: new 摘要：心理健康障碍影响着全球数百万人，而医疗系统日益被来自电子记录、远程医疗平台和人群级筛查项目的大量临床数据所淹没。与此同时，医疗领域新兴的基于AI的方法需要能够处理特定领域非结构化临床信息并能适应患者特定需求的智能框架。本文提出了一种智能体框架，用于构建基于LLM的稳健流水线，其中每个阶段都被封装为一个由明确策略和代理引导评估所管理的LangChain智能体。阶段在验证后逐步锁定，确保后续适配无法在未经验证改进的情况下覆盖配置。该框架从特征级探索开始，经过基于代理的调优和冻结/回滚机制，最终由编排器智能体（Orchestrator Agent）协调预处理、检索、选择、多样性、阈值优化和解码。一项基于转录的抑郁症检测概念验证表明，该框架收敛到稳定配置，例如余弦相似度、动态Top-k和阈值0.75，同时控制评估成本并避免性能退化。这些结果凸显了智能体AI在大型临床数据集上实现人群级心理健康筛查的潜力，应对医疗环境中对可信度、可重复性和适应性的关键挑战。

查看原文

查看缓存全文

缓存时间: 2026/05/14 06:14

# 一种基于智能体LLM的人群规模心理健康筛查框架
来源：https://arxiv.org/html/2605.13046
Paulo Alencar palencar@uwaterloo\.ca 滑铁卢大学 加拿大安大略省滑铁卢
Donald Cowan dcowan@uwaterloo\.ca 滑铁卢大学 加拿大安大略省滑铁卢

###### 摘要

心理健康障碍影响着全球数百万人，而医疗保健系统正日益被来自电子病历、远程医疗平台和人群水平筛查项目产生的大量临床数据所淹没。与此同时，基于AI的新型方法在医疗领域的出现，需要能够处理特定领域非结构化临床信息并适应患者特定需求的智能框架。本文提出了一种构建鲁棒LLM流水线的智能体框架，其中每个阶段都被封装为一个由显式策略和代理引导评估所驱动的LangChain智能体。阶段在经过验证后会被逐步锁定，确保后续调整不会在未证明性能提升的情况下覆盖已有配置。该框架从特征级探索开始，经过基于代理的调优和冻结/回滚机制，最终由编排智能体（Orchestrator Agent）协调预处理、检索、选择、多样性、阈值优化和解码等环节。在基于转录本的抑郁症检测概念验证中，该框架能够收敛到稳定的配置（例如余弦相似度、动态Top-k、阈值τ≈0.75），同时控制评估成本并避免性能退化。这些结果凸显了智能体AI在大型临床数据集上实现人群水平心理健康筛查的潜力，解决了医疗环境中对可信性、可重复性和适应性等关键挑战。

## I 引言

心理健康已成为全球主要的公共卫生优先事项，对早期检测和人群规模筛查的需求日益增长。来自临床转录本、电子健康记录和远程医疗平台的大量医疗数据，创造了对可扩展、智能且自适应的AI系统的需求。然而，当前的机器学习和基于LLM的解决方案难以提供可信、可重复且可配置的流水线，以处理不同患者、临床环境和部署条件之间的变异性。

然而，基于智能体的软件框架的发展仍处于起步阶段。这些框架旨在越来越复杂的环境中更有效地运行，因此其开发面临多项挑战，包括需要理解如何描述其框架架构，以及该架构如何可配置以应对需要上下文智能和适应性的任务。一个特定的空白是提供具有明确角色和职责的智能体框架拓扑。另一个空白是使系统能够根据智能体组件的变异性调整以应对不断变化的场景。

本文介绍了我们正在进行的关于开发用于NLP分类任务的自适应智能体框架的工作。我们定义了一个基于转录本分类的智能体流水线，包括核心阶段和策略的定义，以及一个模块化的智能体执行流水线。所提出的流水线包含支持以下策略的智能体组件：(i) 分词方法，(ii) 截断方法，(iii) 检索，(iv) 分类，以及 (v) 评估指标。描述了智能体角色及其职责和子任务。基于智能体的文本分类系统概念架构的变异性空间通过五个配置组件进行表征。

虽然本工作中的实验验证是在DAIC-WOZ数据集上进行的（该数据集是临床抑郁症检测广泛采用的基准），但所提出的框架旨在以人群规模运行。其智能体编排和配置锁定机制可以扩展，以支持在更大医疗流水线中的无缝部署，包括电子健康记录、大规模筛查平台以及处理数百万临床交互的远程医疗基础设施。

在本文中，我们介绍了一种智能体AI框架，旨在通过编排可配置的LLM阶段，支持大规模心理健康评估，这些阶段由显式策略管理，以实现可重复性、适应性和成本感知优化。与传统的单体式RAG系统不同，所提出的框架与医疗领域的挑战相一致，通过实现人群水平筛查、动态配置管理以及保持无性能退化保证的智能体编排。这项贡献直接应对了AI驱动的临床决策支持中出现的挑战，包括个性化、适应性和鲁棒性。

## II 背景与相关工作

### II-A RAG流水线

检索增强生成（RAG）通过检索机制整合外部知识来增强LLM。在RAG中，一个检索器在向量索引的知识库中搜索上下文相关的信息，然后将其与用户查询结合，输入到生成器（例如序列到序列模型）中，以生成有依据且接地气的回复[7 (https://arxiv.org/html/2605.13046#bib.bib119),3 (https://arxiv.org/html/2605.13046#bib.bib120)]。简而言之，RAG架构通常遵循四步流水线：(1)查询编码，将用户查询编码为向量；(2)文档检索，从知识库中检索相关文档；(3)上下文增强，将检索到的文档和原始查询结合；(4)答案生成，生成模型基于组合输入生成答案。最近的发展基于这些步骤的自动化以及与LLM框架（如LangChain¹¹¹https://www.langchain.com）的集成，使得开发能够为规划或执行进行网络抓取信息的更复杂智能体成为可能[25 (https://arxiv.org/html/2605.13046#bib.bib121)]。

### II-B 动态配置

系统的动态配置是指软件系统在不停止执行的情况下，在运行时修改、扩展或调整其配置设置的能力[13 (https://arxiv.org/html/2605.13046#bib.bib122),17 (https://arxiv.org/html/2605.13046#bib.bib123)]。这一特性在分布式、大规模或容错环境中尤为重要，在这些环境中停止系统进行更改可能不可行或成本过高。在LLM和LLM智能体的背景下，动态配置指的是智能体框架根据不断变化的操作约束（如精度-延迟权衡）调整其配置值（例如截断大小或温度）的能力[11 (https://arxiv.org/html/2605.13046#bib.bib124),10 (https://arxiv.org/html/2605.13046#bib.bib125),20 (https://arxiv.org/html/2605.13046#bib.bib126)]。研究[30 (https://arxiv.org/html/2605.13046#bib.bib127)]根据文本任务中的熵选择温度值，以在生成质量和多样性方面实现更均衡的性能。

### II-C 超参数搜索

超参数搜索是指系统地选择机器学习算法最优超参数配置的过程[4 (https://arxiv.org/html/2605.13046#bib.bib128),6 (https://arxiv.org/html/2605.13046#bib.bib129)]。方法从简单的网格搜索[18 (https://arxiv.org/html/2605.13046#bib.bib130),16 (https://arxiv.org/html/2605.13046#bib.bib131)]和随机搜索[8 (https://arxiv.org/html/2605.13046#bib.bib132),2 (https://arxiv.org/html/2605.13046#bib.bib133)]，到更复杂的技术，包括贝叶斯优化[28 (https://arxiv.org/html/2605.13046#bib.bib134),24 (https://arxiv.org/html/2605.13046#bib.bib135),22 (https://arxiv.org/html/2605.13046#bib.bib136)]或进化算法[26 (https://arxiv.org/html/2605.13046#bib.bib137),29 (https://arxiv.org/html/2605.13046#bib.bib138)]。研究[21 (https://arxiv.org/html/2605.13046#bib.bib139)]回顾了超参数搜索的文献，并针对几个分类任务实验性地优化了一些超参数。

### II-D LangChain与LLM智能体

LangChain²²²https://www.langchain.com是一个开源软件框架，旨在通过提供语言模型、提示模板、记忆、数据检索和工具集成的模块化、标准化接口，来促进基于大语言模型的应用构建。LangChain框架能够系统性地将LLM、嵌入模块、向量存储、提示模板和外部数据源等组件链接起来，以简化复杂、数据感知的NLP系统的开发。LangChain通过工具调用智能体、记忆与规划集成以及使用LangGraph³³³https://www.langchain.com/langgraph进行编排来支持智能体工作流的开发。基于LangChain的应用多种多样，涵盖代码生成[12 (https://arxiv.org/html/2605.13046#bib.bib140)]、心理健康[19 (https://arxiv.org/html/2605.13046#bib.bib141)]和教育[15 (https://arxiv.org/html/2605.13046#bib.bib142)]等领域。研究[27 (https://arxiv.org/html/2605.13046#bib.bib143)]探讨了LangChain和LangGraph如何使模块化智能体（例如TranslateEnAgent、TranslateFrenchAgent）在复杂工作流中协作进行机器翻译，同时保持上下文、可扩展性和模块化。

### II-E LLM智能体协调与基础设施

多个大语言模型（LLM）智能体协作、委派任务或在不同领域专长的智能体系统的开发仍处于起步阶段。我们讨论两个主要方面：协调与基础设施。

LLM智能体协调缺乏成熟方法可归因于几个因素[1 (https://arxiv.org/html/2605.13046#bib.bib144),31 (https://arxiv.org/html/2605.13046#bib.bib145)]。首先，LLM本质上是随机的，其输出可能因运行和上下文而异。这种不可预测性使得制定稳定的协调策略变得复杂，因为智能体交互可能产生非确定性或累积性错误。其次，缺乏多智能体LLM系统的正式理论基础。人工智能中传统的多智能体系统研究强调显式推理模型、协商协议和博弈论协调。然而，这些原则尚未被稳健地适应于LLM驱动的智能体，这些智能体通过自然语言隐式推理，而不是通过符号或显式编码策略。

在软件工程中，基于LLM的系统部署也因缺乏超参数选择和配置管理的系统化策略而受到影响[23 (https://arxiv.org/html/2605.13046#bib.bib148)]。超参数，包括模型温度、上下文窗口大小、检索策略或记忆配置，对系统性能、可靠性和成本有很大影响。与超参数优化已被充分研究的传统机器学习领域[4 (https://arxiv.org/html/2605.13046#bib.bib128)]相比，快速发展的LLM生态系统尚未收敛到可重复的最佳实践上。除了概念和方法上的空白，部署、管理和扩展LLM驱动系统所需的基础设施仍在开发中，限制了可扩展性和鲁棒性。高昂的计算成本、脆弱的的多步骤工作流以及缺乏标准化监控使得协调变得困难。云、本地和边缘环境中的部署异构性进一步复杂化了可重复性和可移植性[14 (https://arxiv.org/html/2605.13046#bib.bib146),5 (https://arxiv.org/html/2605.13046#bib.bib147)]。

## III 用于配置选择的智能体架构

智能体系统正在成为软件工程中的一种新范式，其中流水线被构造为智能体集合——每个智能体封装一个明确定义的角色，由策略治理，并由编排者协调。这些系统通常依赖大语言模型（LLM）来自动执行复杂任务，从文本分类和检索到推理和决策支持。应用领域已经包括软件开发、医疗保健、客户服务和企业管理，这些领域对适应性和鲁棒性的需求正在迅速增长。

在这个更广泛的背景下，文本分类提供了一个具有代表性且高影响力的用例。它涵盖多个领域，如垃圾邮件检测、客户情感分析、新闻分类和欺诈监控。例如，在医疗保健中，基于转录本的分类可用于支持抑郁症的早期检测，从而实现可扩展且经济高效的临床筛查。

尽管存在这些机会，智能体软件框架的发展仍处于早期阶段。关键挑战包括：(i) 如何从智能体角色和职责的角度描述流水线架构；(ii) 如何管理多个配置维度（例如嵌入、截断策略、检索指标、解码参数）的变异性；(iii) 如何执行无性能退化策略，使得后期调整不会损害早期已验证的配置。现有系统通常将这些选择视为单体式或临时性的，导致脆弱且昂贵的解决方案。

本文介绍了我们正在进行的开发用于NLP分类流水线的智能体框架的工作，并实例化在基于转录本的抑郁症检测任务中。我们的框架定义了九个智能体，涵盖预处理、相似度、检索、多样性、后过滤、数据扩展、阈值调优、解码和编排。每个智能体由显式策略治理，这些策略决定何时采用、冻结或回滚配置，编排智能体协调决策并确保整个流水线的无性能退化。采用代理评估来降低探索成本，将昂贵的金评估留给有前景的候选方案。

本工作的贡献有三个：(1) 我们定义了一个智能体架构，其中流水线的每个阶段都被封装为一个具有显式策略和职责的LangChain智能体；(2) 我们从配置组件及其锁定机制的角度刻画了文本分类流水线的变异性空间；(3) 通过抑郁症检测的案例研究，我们演示了框架如何收敛到稳定配置，同时降低退化风险并控制评估成本。通过将可配置性、变异性管理和策略执行作为头等软件工程关注点，本工作推进了智能体软件系统的最新水平，并为不断增长的智能体软件工程研究议程做出了贡献。

### III-A 总体智能体设计

```
+--------------------------------------------------+
|        智能体抑郁症检测 (RAG)                        |
+--------------------------------------------------+
| 离线（案例库，样本内）                             |
|  train_extended.jsonl -> e5-base (trunc=256)      |
|                      -> 嵌入存储 (L2-norm)         |
+--------------------------------------------------+
| 在线每项 (验证集)                                  |
|  转录本 t                                          |
   -

一种基于智能体的LLM框架用于大规模人群心理健康筛查

相似文章

DS@GT ARC 在 eRisk 2026 中的应用：具有结构化算法指导的混合多智能体大语言模型系统用于对话式抑郁症筛查

基于AI心理健康对话的被动抑郁严重程度评估的LLMs微调

基于Agentic AI的框架：缓解医疗应用中的过早诊断交接与无声幻觉

面向心理健康交互的大语言模型中框架敏感行为不稳定性审计

训练治疗性评判器与多智能体系统以实现与人类对齐的心理健康支持

提交意见反馈