训练治疗性评判器与多智能体系统以实现与人类对齐的心理健康支持

arXiv cs.CL 2026/07/01 04:00 论文

mental-health llm-judge multi-agent therapy open-source human-alignment safety

摘要

本文介绍了TheraJudge和TheraAgent，这是一个利用多维度人类对齐评估来改进大语言模型治疗性回复生成的框架，在质量和安全性方面取得了显著提升。

arXiv:2606.30887v1 公告类型：新摘要：大型语言模型在心理健康支持方面展现出潜力，但治疗质量只有在评估作为可操作的控制信号而非被动指标时才能提升。我们提出一个框架，将治疗性回复生成建模为一个由多维人类对齐评估驱动的决策优化问题。在第一阶段，我们引入TheraJudge，这是一个开源的治疗性评估器，通过基于偏好的优化在人工标注数据上训练，以在7个心理维度上产生可靠的判断。在第二阶段，我们引入TheraAgent，它通过一个协调的优化过程来利用TheraJudge的评估，该过程包含专门的评判者（Critic）、教练（Coach）和治疗师（Therapist）角色，将评估信号转化为有针对性的回复修订。实验表明，TheraJudge与临床医生评分高度一致，组内相关系数（ICC = 0.87-0.95），超越了监督基线和强大的闭源评估器，尤其在安全性、相关性和同理心等关键维度上表现突出。基于这些评估，TheraAgent在盲评中使人类评定的治疗质量（5分制）提升了+0.43，临床医生间信度为96\%。低质量回复（$\leq 3$）提升了+2.45分，恢复率达94\%，展示了针对不安全输出的定向修正。总体而言，我们的结果表明，心理健康大语言模型的有效对齐源于基于人类对齐评估的行动，而非仅仅依赖更强的生成能力。我们在https://github.com/vis-nlp/TheraAlign发布代码。

查看原文

查看缓存全文

缓存时间: 2026/07/01 05:31

# 训练治疗性评判员与多智能体系统以实现与人类对齐的心理健康支持  
来源：https://arxiv.org/html/2606.30887  

Mizanur Rahman1,\*, Abeer Badawi1,2,3,\*, Elahe Rahimi2,4, Laleh Seyyed\-Kalantari1,2,3, Frank Rudzicz2,4, Enamul Hoque1, Elham Dolatabadi1,2,3  
1 约克大学，安大略省，加拿大  
2 Vector Institute，安大略省，加拿大  
3 Connected Minds，安大略省，加拿大  
4 达尔豪斯大学，新斯科舍省，加拿大  
\* 同等贡献  

###### 摘要  

大型语言模型在心理健康支持方面展现出潜力，但只有当评估作为可操作的反馈信号而非被动指标时，治疗质量才能得到提升。我们引入了一个框架，将治疗性回应生成形式化为一个由多维度、与人类对齐的评估驱动的决策优化问题。在第一阶段，我们提出 TheraJudge，这是一个开源治疗性评判器，通过基于人类标注数据的偏好优化进行训练，能在7个心理维度上产生可靠的判断。在第二阶段，我们提出 TheraAgent，它通过一个协调的优化过程（包括专门的评判者、教练和治疗师角色）将 TheraJudge 的评估转化为有针对性的回应修正。实验表明，TheraJudge 与临床医生评分高度一致，组内相关系数（ICC = 0.87-0.95），超过了有监督基线方法和强大的闭源评判器，尤其在安全性、相关性和同理心等关键维度上表现突出。基于这些评估，TheraAgent 在盲评下将人工评定的治疗质量提升了 +0.43（5分制），临床医生评分者间信度达96%。低质量回应（≤3分）提高了 +2.45 分，恢复率高达94%，展示了针对不安全输出的定向修正。总体而言，我们的结果表明，心理健康大语言模型的有效对齐源于对与人类对齐的评估采取行动，而非仅依赖更强的生成能力。我们在 https://github.com/vis-nlp/TheraAlign 发布代码。  

---

## 1 引言  

![图示说明](图1：第一阶段：TheraJudge。给定用户上下文和回应，TheraJudge 应用分组偏好优化，生成结构化的多维度治疗性评分，指导与人类对齐的回应优化。)  

近期大型语言模型（LLMs）的进展使得将 LLM 作为评判器用于评估生成回应变得流行（Croxford et al. 2025; Laskar et al. 2023; Rahman et al. 2025b）。在通用领域，闭源评判器能够实现高质量且可靠的回应评估（Tan et al. 2024; Li et al. 2025）。然而，这些评判器通常未针对治疗性评估准则和安全关键偏好进行验证。心理健康支持需要多维度的治疗性判断，包括适当的同理心、可操作的指导以及安全升级。同时，由于数据治理和隐私要求，应优先采用开源部署，而小型开源模型在这些方面通常表现不佳，形成了关键能力缺口（Badawi et al. 2025b）。更重要的是，仅有评估本身是不够的。评分、排序或筛选回应并不能确保改进，除非评估信号被明确用于指导修正（Oh et al. 2024）。我们将这一限制称为“评估-行动差距”（Fernandes et al. 2023）。弥合这一差距在高风险领域尤为重要，因为回应质量取决于满足多个（往往是相互竞争的）目标（Manna and Sett 2024）。在心理健康应用中，这一挑战尤为严峻，因为模型不仅需要保持安全性和连贯性，还要提供符合语境、富有同理心且可操作的支持（Xu et al. 2024; Bedi et al. 2025）。因此，治疗性改进既需要一个与人类对齐的评判器，能够跨多个维度可靠评估回应质量，也需要一种机制能基于这些评估来改进回应。  

虽然近期有研究探索了 LLM 作为评判器的框架在临床摘要和诊断场景中的应用（Croxford et al. 2025; Li et al. 2025），但仍缺乏一个与心理健康标准对齐的强效开源评判器。同时，现有工作大多依赖专有闭源模型，这些模型既未与治疗性回应生成充分对齐，也不适用于数据敏感性和隐私约束至关重要的高风险领域。此外，这类评判器无法捕捉人类治疗偏好（Gabriel et al. 2024; Guo et al. 2024）。如果没有与人类对齐且公开可访问的评判器，就无法系统性地改进或对齐模型，使其表现出临床适当的治疗行为（Badawi et al. 2026b）。因此，核心挑战不仅在于生成能力本身，更在于如何使用评估。  

在本工作中，我们认为，有效的回应改进需要将评估转化为结构化的、可解释的、可操作的信号。我们的方法与简单的自我优化或通用多智能体框架不同，它使用与临床医生对齐的多维度治疗性评估作为显式的推理阶段控制信号，用于有针对性的回应修正。我们不是将回应生成视为一次性过程，而是将其视为不确定性下的决策问题，其中评估信号作为控制变量。  

为了实现这一理念，我们引入了一个结构化的回应改进框架，将一个与人类对齐的评判器嵌入到一个专门设计为基于其判断采取行动的优化过程中。首先，我们训练了一个与人类对齐的治疗性评判器 TheraJudge，使用基于偏好的优化方法，在 Mental-Align-100K 数据集的 10,000 条对话上训练（Badawi et al. 2025b）。TheraJudge 在多个治疗维度上生成结构化评分，具有高可靠性，并超越了有监督基线和闭源评判器。其次，我们提出了 TheraAgent，它利用这些评分，通过评估、批评和修正的过程来指导针对性回应的优化。这种设计使得当回应不足时能够实现可解释的改进，而无需依赖整体的重新生成。  

我们不仅评估平均分数的变化，还评估效应量、初始低质量回应的恢复率以及持证临床医生的评分者间信度（IRR），从而判断优化是否修正了失败模式同时保持了高质量行为。通过大量实验，我们证明，基于结构化评估反馈采取行动，相比仅使用评判器或仅使用生成器的基线方法，能带来持续改进。在具有挑战性的对话上进行盲人评估（每段对话针对七个治疗维度标注），总体平均分从 4.26 提升至 4.69（+0.43）。重要的是，这些提升具有高度选择性而非均匀分布。初始低质量或不安全的回应表现出大幅改进，而已可接受的回应保持稳定且未退化。特别是安全性改进呈现出阈值模式：尽管由于已安全回应的饱和效应，平均安全分数变化不大，但不安全案例得到了一致修正，几乎全部恢复到可接受的安全水平。这些结果展示了回应质量、安全性和人类对齐方面的实质性改进，凸显了闭合评估与行动之间循环的重要性。这种前后比较提供了独立于已学习评判器的外部评估。  

简而言之，我们的贡献包括：  
(i) 将治疗性回应生成形式化为一个决策优化问题，其中多维度、与人类对齐的判断作为显式控制信号，将评估转化为可操作的修正，直接解决评估-行动差距；  
(ii) 通过基于偏好优化训练开源治疗性评判器 TheraJudge 来实例化这一形式化，产生可解释、具有临床意义的评分，支持超越标量奖励的针对性优化；  
(iii) 提出 TheraAgent，基于这些评分选择性修复低质量回应，在盲评下将总体平均分从 4.26 提升至 4.69（+0.43），并实现了高恢复率和强临床医生评分者间信度。  

![图示说明](图2：第二阶段：TheraAgent。利用来自 TheraJudge（第一阶段）的与人类对齐的评分，TheraAgent 进行批评、指导和优化，将初始回应转变为更符合临床医生判断的最终回应。)  

---

## 2 相关工作  

##### 用于心理健康支持的大语言模型  

大语言模型越来越多地被用于心理健康领域的支持性沟通、咨询和共情对话生成（Gabriel et al. 2024; Ovsyannikova et al. 2025; Xu et al. 2025; Rahman et al. 2025a）。这些系统能够生成连贯、情感匹配的回应，并协助完成如回答问题、提供减压指导或将用户分诊至进一步护理等任务（Lai et al. 2023; Badawi et al. 2026a; Obadinma 2025）。然而，实证评估揭示了重大风险，包括幻觉、治疗质量不一致以及共情表达中的统计差异（Gabriel et al. 2024; Guo et al. 2024）。近期研究强调，尽管有潜力，心理健康大语言模型在部署前需要结构化评估、伦理保障、透明监督和领域特定的微调（Badawi et al. 2025a; Ji et al. 2023; Stade et al. 2024; Lawrence et al. 2024）。MentaLLaMA（Yang et al. 2024）尝试在没有专家整理数据集和严格对齐的情况下匹配闭源性能。总之，虽然大语言模型在心理健康支持方面前景广阔，但该领域缺乏确保安全和治疗一致性所需的可靠评估和对齐方法。  

##### 大语言模型作为心理健康评判器  

“大语言模型作为评判器”已成为开放语言任务中人工评估的可扩展替代方案。强模型能以高度一致性逼近人类偏好（Zheng et al. 2023）。然而，评判器可靠性差异显著，即使是前沿模型在具有挑战性的推理或基于正确性的比较中也表现不佳，这促使了更严格评估框架的发展（Tan et al. 2024），并强调了透明、领域特定评判系统的必要性（Li et al. 2025）。在医疗领域，基于大语言模型的评判器已被用于临床摘要和文档，自动评估器能近似专家评分（Croxford et al. 2025）。但研究显示评估实践不一致，且高度依赖闭源评判器，限制了透明度和可审计性（Bedi et al. 2025）。尽管对“大语言模型作为评判器”的兴趣日益增长，尚无先前工作提供一个与人类对齐的开源治疗性对话评判器，且现有评判器无法可靠捕捉人类治疗偏好（Gabriel et al. 2024; Guo et al. 2024）。为弥补这一空白，我们引入了一个通过基于偏好的强化学习训练的、与人类对齐的开源治疗性评判器，作为我们多智能体框架 TheraAgent 的基础。  

##### 强化学习在心理健康对齐中的应用  

强化学习（RL）越来越多地被用于将语言模型与人类期望对齐（Wang et al. 2024）。早期对齐方法如 RLHF（Ouyang et al. 2022）结合了人类演示和偏好排序，并通常使用近端策略优化（PPO）来优化这些信号（Schulman et al. 2017），PPO 通过裁剪目标函数来稳定策略更新。后续方法如直接偏好优化（DPO）简化了这一流程，去除了训练单独奖励模型的需求，直接优化策略以匹配人类偏好比率（Rafailov et al. 2023）。最近，GRPO 通过比较回应组而非成对回应来扩展基于偏好的训练，产生更稳定的梯度和更高的样本效率，同时避免了奖励建模的复杂性（Shao et al. 2024; Rahman et al. 2026）。RL 方法在医疗领域也被广泛探索，用于治疗规划、诊断和临床决策支持，展示了其在高风险环境中的潜力（Yu et al. 2021; Aliyu et al. 2024）。近期支持性对话框架如 TherapyGym（Huang et al.）和 Kardia-R1（Yuan et al. 2025）主要使用 RL 中的评估信号或基于准则的训练时对齐来直接改进生成。然而，对于与人类对齐的回应生成，同样关键的是学习可在推理阶段运行的评估信号，而不仅仅通过训练时的策略更新。表6 总结了这些区别。

训练治疗性评判器与多智能体系统以实现与人类对齐的心理健康支持

相似文章

法律中多智能体协商研究

在线Agent-as-a-Judge：交互式智能体的情境生成评估

让LLMs相互评判：用于医学问答的多智能体同行评审推理

Agent Judge：解决生产环境智能体的长上下文评估（10分钟阅读）

Agent 评估：详细指南（53 分钟阅读）

提交意见反馈