Mental-R1：对齐LLM推理用于心理健康评估

arXiv cs.AI 2026/06/12 04:00 论文

llm-reasoning mental-health reinforcement-learning cognitive-alignment policy-optimization healthcare-ai nlp

摘要

提出认知相对策略优化（CRPO），一种用于对齐大语言模型在心理健康评估中推理的强化学习框架，在加权F1分数上比现有基线平均提高10.4个百分点。

arXiv:2606.13176v1 公告类型：新摘要：焦虑、抑郁和自杀等心理健康问题仍然是紧迫的全球性挑战，及时准确的评估对于有效干预至关重要。最近，大语言模型被探索用于心理健康评估。然而，现有的通用后训练方法与人类评估的认知过程不一致，可能导致不可靠的推理结果。为了弥补这一差距，我们提出了认知相对策略优化（CRPO），这是一个专为心理健康领域量身定制的强化学习框架。CRPO通过将阶段依赖的不确定性建模集成到策略优化过程中，扩展了群体相对策略优化。具体来说，我们引入了一种阶段性的熵正则化机制，该机制在早期推理阶段鼓励广泛探索，并在后期逐步强制执行自信决策，模仿人类从不确定到确定的认知转变。此外，受认知评估理论的启发，我们形式化了认知推理阶段，从而指导基于理论的可解释推理。在8个心理健康数据集上的实验表明，CRPO在加权F1分数上比最佳强化学习基线平均提高了10.4个百分点。此外，经过CRPO训练的模型Mental-R1在推理密集型案例上相比现有大语言模型表现出明显优势，表明CRPO增强了心理健康评估的推理能力。

查看原文

查看缓存全文

缓存时间: 2026/06/12 08:55

# Mental-R1：将大语言模型推理与心理健康评估对齐

来源：https://arxiv.org/html/2606.13176

Xin Wang, Boyan Gao, Yibo Yang, and David A\. Clifton

Xin Wang, Boyan Gao, and Yibo Yang are with the Department of Engineering Science, University of Oxford, Oxford, U\.K (e-mail: xin\.wang@eng\.ox\.ac\.uk).

David A\. Clifton is with the Department of Engineering Science, University of Oxford, U\.K., and also with the Oxford Suzhou Centre for Advanced Research, Suzhou, China (e-mail: david\.clifton@eng\.ox\.ac\.uk).

This work was supported by the Pandemic Sciences Institute at the University of Oxford; the National Institute for Health Research (NIHR) Oxford Biomedical Research Centre (BRC); an NIHR Research Professorship; a Royal Academy of Engineering Research Chair; the Wellcome Trust funded VITAL project (grant 204904/Z/16/Z); the EPSRC (grant EP/W031744/1); and the InnoHK Hong Kong Centre for Cerebro-cardiovascular Engineering (COCHE).

###### 摘要

焦虑、抑郁和自杀等心理健康问题仍然是紧迫的全球性挑战，及时准确的评估对于有效干预至关重要。最近，大语言模型已被探索用于心理健康评估。然而，现有的通用型后训练方法与人类评估的认知过程不一致，可能导致不可靠的推理结果。为了弥合这一差距，我们提出认知相关策略优化（Cognitive Relative Policy Optimization, CRPO），这是一个专为心理健康领域设计的强化学习框架。CRPO 扩展了分组相对策略优化，通过将阶段依赖的不确定性建模整合到策略优化过程中。具体来说，我们引入了一种阶段化的熵正则化机制，鼓励在早期推理阶段进行广泛的探索，并在后期逐步加强自信的决策，模仿人类认知从不确定性到确定性的转变。此外，受认知评价理论的启发，我们形式化了认知推理阶段，从而引导基于理论的可解释推理。在8个心理健康数据集上的实验表明，CRPO 在加权 F1 分数上比最佳强化学习基线平均提高 10.4 个百分点。此外，经过 CRPO 训练的模型 Mental-R1 在推理密集型案例中相比现有大语言模型显示出明显优势，表明 CRPO 增强了心理健康评估的推理能力。

## I. 引言

抑郁和自杀行为等心理健康问题已成为全球性的福祉负担。根据世界卫生组织的数据，每年有超过72万人死于自杀，相当于每43秒就有一人自杀[65 (https://arxiv.org/html/2606.13176#bib.bib2)]。因此，对心理健康状况的早期评估对于及时干预和预防至关重要。心理健康评估（Mental Health Assessment, MHA）专注于从个人的文本陈述中识别其心理状况，包括孤独感[28 (https://arxiv.org/html/2606.13176#bib.bib34),59 (https://arxiv.org/html/2606.13176#bib.bib69)]、抑郁[51 (https://arxiv.org/html/2606.13176#bib.bib10),40 (https://arxiv.org/html/2606.13176#bib.bib9)]、压力[62 (https://arxiv.org/html/2606.13176#bib.bib5),60 (https://arxiv.org/html/2606.13176#bib.bib6)]、焦虑[46 (https://arxiv.org/html/2606.13176#bib.bib32),72 (https://arxiv.org/html/2606.13176#bib.bib33)]和自杀风险[4 (https://arxiv.org/html/2606.13176#bib.bib7),6 (https://arxiv.org/html/2606.13176#bib.bib8)]。最近，大语言模型（LLMs）因其在多种自然语言理解任务中的强大泛化能力[41 (https://arxiv.org/html/2606.13176#bib.bib64),78 (https://arxiv.org/html/2606.13176#bib.bib79),23 (https://arxiv.org/html/2606.13176#bib.bib61),25 (https://arxiv.org/html/2606.13176#bib.bib62),55 (https://arxiv.org/html/2606.13176#bib.bib85),54 (https://arxiv.org/html/2606.13176#bib.bib86),7 (https://arxiv.org/html/2606.13176#bib.bib70)]，已成为心理健康评估的一种有前景的范式[53 (https://arxiv.org/html/2606.13176#bib.bib13),67 (https://arxiv.org/html/2606.13176#bib.bib11),70 (https://arxiv.org/html/2606.13176#bib.bib12),24 (https://arxiv.org/html/2606.13176#bib.bib63),49 (https://arxiv.org/html/2606.13176#bib.bib81),50 (https://arxiv.org/html/2606.13176#bib.bib77),75 (https://arxiv.org/html/2606.13176#bib.bib76)]。先前的研究主要使用标准监督微调（SFT）[15 (https://arxiv.org/html/2606.13176#bib.bib49)]或强化学习（RL）[31 (https://arxiv.org/html/2606.13176#bib.bib50)]来使LLMs适应心理健康任务。然而，这些“通用型”后训练方法往往无法反映心理健康专业人员在现实世界中的评估过程，限制了其在医疗应用中的可靠性。在现实世界的评估中，心理健康专业人员通常通过重建个体背后的认知过程来理解其状况[3 (https://arxiv.org/html/2606.13176#bib.bib51),47 (https://arxiv.org/html/2606.13176#bib.bib52),32 (https://arxiv.org/html/2606.13176#bib.bib53),10 (https://arxiv.org/html/2606.13176#bib.bib54)]。这一推理过程的两个特征尤其重要。首先，评估过程遵循人类认知的自然动态[13 (https://arxiv.org/html/2606.13176#bib.bib58),22 (https://arxiv.org/html/2606.13176#bib.bib59),16 (https://arxiv.org/html/2606.13176#bib.bib60)]。在早期阶段，心理健康专业人员倾向于收集观察结果并以较高的不确定性探索可能的信号。随着更多上下文信息的考量，他们逐渐完善自己的解释，并朝着更自信的评估迈进。这种从不确定性到确定性的转变反映了人类认知推理的一个基本特性[18 (https://arxiv.org/html/2606.13176#bib.bib14),8 (https://arxiv.org/html/2606.13176#bib.bib15)]。其次，这种评估通常遵循基于理论的认知阶段[66 (https://arxiv.org/html/2606.13176#bib.bib57)]。与认知行为框架和ABC模型[11 (https://arxiv.org/html/2606.13176#bib.bib55),2 (https://arxiv.org/html/2606.13176#bib.bib56)]一致，该过程通常从识别可能导致心理困扰的潜在刺激或生活事件开始。然后分析个体如何认知评价这些事件[34 (https://arxiv.org/html/2606.13176#bib.bib29)]以及这种评价如何导致情感或行为反应。最后，推断出个体的心理状态。受这些认知过程重建特征的启发，我们提出认知相关策略优化（CRPO），这是一个将LLM推理与人类认知动态和基于理论的认知阶段对齐的强化学习框架。为了建模认知动态，我们引入了阶段化熵正则化，这是一种阶段依赖的不确定性控制机制，集成到策略优化目标中。与许多在推理过程中应用统一探索策略的强化学习方法[36 (https://arxiv.org/html/2606.13176#bib.bib37),26 (https://arxiv.org/html/2606.13176#bib.bib38),19 (https://arxiv.org/html/2606.13176#bib.bib16)]不同，我们的方法明确地在推理阶段之间调节熵。早期推理阶段被鼓励保持较高的熵以促进多样化的探索，而后期阶段逐步降低熵以引导模型朝向更自信的结论。这种设计实现了一个原则性的阶段感知探索-结论权衡，模仿了人类认知中从不确定性到确定性的转变。为了捕捉基于理论的推理阶段，我们借鉴了认知评价理论[34 (https://arxiv.org/html/2606.13176#bib.bib29),12 (https://arxiv.org/html/2606.13176#bib.bib27),64 (https://arxiv.org/html/2606.13176#bib.bib28)]，这是一个经典的心理框架，解释了人类心理反应背后的内部认知过程。基于这一理论，我们形式化了一组推理阶段，包括刺激、初级评价、次级评价、反应和心理状态。我们在训练期间通过设计一个格式奖励来操作化这一框架，该奖励鼓励输出与这些推理阶段一致。此外，我们引入了一个平衡答案奖励，以解决在多个数据集联合训练过程中遇到的数据不平衡问题。总之，CRPO 弥合了通用型LLM后训练方法与真实世界心理健康评估实践之间的推理差距，从而提高性能和可靠性。本文的主要贡献有三点：

- **认知启发的强化学习**。我们提出了认知相关策略优化（CRPO），这是一个新颖的强化学习框架，将LLM推理与人类认知动态对齐。我们的主要算法贡献是阶段化熵正则化，它将“从不确定性到确定性”的认知转变转化为策略优化目标中阶段依赖的不确定性调节机制。此外，我们形式化了受认知评价理论启发的基于理论的推理阶段，以支持可解释的推理。我们还设计了一个平衡答案奖励，以解决在多个数据集联合训练期间同时存在的类别和数据集不平衡问题。

- **广泛的实证验证**。在8个心理健康数据集上的实验表明，CRPO 持续优于现有的后训练基线，加权F1分数平均提高10.4个百分点。此外，经过CRPO训练的模型Mental-R1在复杂样本上相比最佳性能的LLM显示出约15.6个百分点的优势，表明CRPO有效增强了模型在心理健康方面的推理能力。

- **透明的基准测试**。心理健康评估的评估可能因现有基准的混合可访问性而受到阻碍，因为数据集并非统一开放。为了促进这一领域，我们构建了一个完全基于开源数据集的透明基准。通过系统比较现代基于RL的基线和LLM基线，我们为推进人工智能与医疗保健的跨学科研究提供了坚实的基础。

## II. 相关工作

### II-A 心理健康评估

计算研究中的心理健康评估主要侧重于从文本数据中识别抑郁[51 (https://arxiv.org/html/2606.13176#bib.bib10),40 (https://arxiv.org/html/2606.13176#bib.bib9),14 (https://arxiv.org/html/2606.13176#bib.bib66)]、压力[63 (https://arxiv.org/html/2606.13176#bib.bib17),61 (https://arxiv.org/html/2606.13176#bib.bib1),27 (https://arxiv.org/html/2606.13176#bib.bib65)]、焦虑[46 (https://arxiv.org/html/2606.13176#bib.bib32),72 (https://arxiv.org/html/2606.13176#bib.bib33),21 (https://arxiv.org/html/2606.13176#bib.bib68)]和自杀风险[4 (https://arxiv.org/html/2606.13176#bib.bib7),17 (https://arxiv.org/html/2606.13176#bib.bib18),30 (https://arxiv.org/html/2606.13176#bib.bib67)]等状况。这些任务通常表述为分类问题。有些涉及二分类，例如判断个体是否正在经历焦虑[46 (https://arxiv.org/html/2606.13176#bib.bib32)]或压力[5 (https://arxiv.org/html/2606.13176#bib.bib47)]。其他的则需要多类别分类，例如将个体抑郁严重程度划分为最小、轻度、中度和重度[40 (https://arxiv.org/html/2606.13176#bib.bib9)]，或将自杀风险分类为迹象、意念、行为和尝试[79 (https://arxiv.org/html/2606.13176#bib.bib48)]。最近的研究将大语言模型（LLMs）应用于心理健康评估，标志着从特定任务分类器向能够在统一框架内处理多个心理健康任务的通用模型转变[33 (https://arxiv.org/html/2606.13176#bib.bib73),74 (https://arxiv.org/html/2606.13176#bib.bib74),39 (https://arxiv.org/html/2606.13176#bib.bib75),29 (https://arxiv.org/html/2606.13176#bib.bib82)]。Xu等人[67 (https://arxiv.org/html/2606.13176#bib.bib11)]评估了多种LLMs在在线文本心理健康预测任务上的表现，表明他们的指令微调模型如Alpaca和FLAN-T5大大优于基于提示的基线。Yang等人[70 (https://arxiv.org/html/2606.13176#bib.bib12)]通过ChatGPT生成构建了一个解释数据集，增强了可解释性，并微调LLaMA-2以联合提高预测和解释质量。Shi等人[53 (https://arxiv.org/html/2606.13176#bib.bib13)]提出了一个轻量级0.5B参数模型，具有双LoRA模块和数据剪枝，以低得多的资源需求在基准数据集上取得了竞争性结果。虽然这些工作展示了LLMs在心理健康应用中的前景，但它们没有与人类认知动态对齐，并且缺乏基于理论的分阶段推理。为了解决这些局限性，我们的工作明确引入了阶段化熵正则化策略，引导LLM推理从早期探索到最终确定性，并整合认知评价理论来定义结构化的推理阶段。

### II-B 用于推理的强化学习

强化学习（RL）最近已成为增强大语言模型推理能力的核心范式[37 (https://arxiv.org/html/2606.13176#bib.bib71),52 (https://arxiv.org/html/2606.13176#bib.bib72),19 (https://arxiv.org/html/2606.13176#bib.bib16),77 (https://arxiv.org/html/2606.13176#bib.bib24),73 (https://arxiv.org/html/2606.13176#bib.bib78),76 (https://arxiv.org/html/2606.13176#bib.bib83)]。一个有代表性的方法是基于人类反馈的强化学习，即RLHF[45 (https://arxiv.org/html/2606.13176#bib.bib19)]，它使用偏好数据微调模型，使其输出与人类判断对齐。扩展方法如基于AI反馈的强化学习，即RLAIF[35 (https://arxiv.org/html/2606.13176#bib.bib21)]，通过使用AI模型生成偏好标签，减少了对昂贵人工标注的依赖。与此同时，直接偏好优化，即DPO[48 (https://arxiv.org/html/2606.13176#bib.bib20)]，将偏好学习重新表述为有监督目标，实现了更稳定和高效的优化。除了偏好学习，最近的工作还探索了RL如何直接提高推理质量。分组相对策略优化，即GRPO[19 (https://arxiv.org/html/2606.13176#bib.bib16)]已被提出作为训练LLMs进行推理任务的高效替代方案，使用基于分组的相对奖励来提高样本效率和稳定性。其他研究进一步扩展了这一研究方向：ReST-RL[80 (https://arxiv.org/html/2606.13176#bib.bib22)]将数据过滤与价值模型和蒙特卡洛树搜索相结合，以增强推理准确性，而RL Tango[56 (https://arxiv.org/html/2606.13176#bib.bib23)]采用联合生成器-验证器训练来增强鲁棒性。DAPO[71 (https://arxiv.org/html/2606.13176#bib.bib46)]引入了解耦裁剪策略以及动态采样，以优化训练稳定性和信号质量。这些方法没有反映人类认知的工作方式，即早期推理倾向于探索性，而后期推理更具决定性。我们的CRPO框架在此基础上引入了阶段化熵正则化

Mental-R1：对齐LLM推理用于心理健康评估

相似文章

元认知作为奖励：通过知识与调控信号强化大语言模型推理

LambdaPO: 面向推理语言模型的Lambda风格策略优化

Memory-R2: 面向长程记忆增强型LLM代理的公平信用分配

置信度感知对齐让推理型大语言模型更加可靠

面向长周期LLM代理的Meta-Cognitive Memory Policy Optimization

提交意见反馈