对齐心理健康支持中的人机交互信任:多方利益相关者调查与立场

arXiv cs.CL 论文

摘要

一项多机构调查提出了一个三层信任框架,以协调技术、临床和以人为中心的需求,打造用于心理健康支持的可信 AI。

arXiv:2604.20166v1 公告类型:新 摘要:构建用于心理健康支持的可信 AI 系统是跨学科多方利益相关者的共同优先事项。然而,“可信”一词仍定义松散,且在不同场景下操作方式不一。AI 研究通常聚焦技术指标(如鲁棒性、可解释性与安全性),而治疗从业者则强调治疗保真度(如适宜性、共情与长期用户结局)。为弥合这一碎片化格局,我们提出一个涵盖“以人为中心”“以 AI 为中心”及“以交互为中心”的三层信任框架,整合关键利益相关者(如从业者、研究者、监管者)的视角。基于此框架,我们系统回顾了现有 AI 驱动的心理健康研究,并检视从自动指标到临床验证的“可信”评估实践。我们重点指出 NLP 当前所测指标与真实心理健康场景所需之间的关键差距,并勾勒出构建社会技术对齐、真正可信的心理健康支持 AI 的研究议程。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/23 10:03

# 面向多方利益相关者的心理健康支持中人机交互信任对齐:综述与立场  
来源:https://arxiv.org/html/2604.20166  
Xin Sun¹,³, Yue Su², Yifan Mo², Qingyu Meng², Yuxuan Li², Saku Sugawara¹, Mengyuan Zhang², Charlotte Gerritsen², Sander L. Koole², Koen Hindriks², Jiahuan Pei²  
¹日本国立情报学研究所(NII)  
²荷兰阿姆斯特丹自由大学  
³荷兰阿姆斯特丹大学  

###### 摘要  
构建用于心理健康支持的可信 AI 系统,是跨学科利益相关者的共同优先事项。然而,“可信”一词仍定义模糊、操作不一。AI 研究常聚焦技术指标(如鲁棒性、可解释性、安全性),而治疗实践者更强调治疗保真度(如适宜性、共情、长期用户结局)。为弥合碎片化的现状,我们提出涵盖“人以信任”“AI 可信”“交互可信”的三层信任框架,整合关键利益相关者(实践者、研究者、监管者等)视角。基于该框架,我们系统梳理了心理健康领域 AI 驱动研究,审视从自动指标到临床验证的“可信”评估实践,揭示 NLP 当前测量与现实心理健康场景需求之间的关键缺口,并勾勒社会技术对齐、真正可信的心理健康 AI 研究议程。  

## 1 引言  
见图 1:2021–2025 年 1 706 篇信任相关论文的学科网络呈碎片化。节点大小代表文献量,边粗细表示关联强度。这促使我们提出图 2 的利益相关者驱动信任框架。可视化代码已开源。²  

构建可信的人工智能(AI)心理健康支持系统,需要多学科协作,但文献综述显示学科网络高度碎片化(见脚注 2)。AI 领域,大模型(LLM)拓展了心理健康应用(Na et al., 2025),多 LLM 智能体系统的可信研究亦在兴起(Ozgun et al., 2025)。相反,心理治疗研究将人类信任视为临床敏感、情境化、关系性的构念(Chi et al., 2021;Kauttonen et al., 2025;Gille et al., 2025;Rai et al., 2025)。这种框架差异凸显跨学科对齐的必要。  

“可信 AI”含义因群体而异:计算机科学家常用鲁棒性、隐私、毒性控制等技术指标,并以困惑度、BLEU 或安全分类器评分评估(Huang et al., 2024;Yu et al., 2025);心理健康实践者则关注治疗依从、共情、危机安全及求助意愿等临床关系指标(Liu & Tao, 2022)。平台、监管者与伦理学家又提出问责与伦理期望(AIHLEG, 2019)。  

现有综述多聚焦医学幻觉(Zhu et al., 2025)或 LLM 心理治疗流程(Na et al., 2025),但缺乏跨利益相关者的信任协作指导。本文填补空白,提出“三层信任框架”:人以信任、AI 可信、交互可信,映射实践者、监管者、AI/HCI/安全研究者等视角,并据此系统综述文献,指出开放挑战与研究议程。综述方法详见附录 B。贡献有三:  
- 提出统一碎片化概念的三层、多利益相关者框架。  
- 系统梳理 AI 心理健康文献,揭示各层与利益相关者的侧重及缺口。  
- 分析各层评估方法,定位 AI 定义的可信与治疗实践所需信任的差距。  

## 2 概念框架  
可信 AI 心理健康非单一定义,而是多学科关切。我们将核心可信标准(透明、可解释、隐私等)提炼为三层框架,并梳理关键利益相关者(实践者、AI/HCI/安全研究者、监管者)。  

见图 2:基于跨学科文献,我们识别五类关键利益相关者,提出“人以信任”“交互可信”“AI 可信”三层框架,以组织现有方法、评估实践与挑战。  

### 2.1 利益相关者图景  

#### 2.1.1 心理治疗实践者  
治疗师将用户信任视为临床敏感变量,指导系统设计。信任随交互情境演化,受技术态度、使用经验、人格、熟悉度、责任归因、社会支持等因素影响(Kauttonen et al., 2025;Zhao et al., 2025;Huo et al., 2022)。AI 知识有限者更易过度信赖(Woodcock et al., 2021);有人类监督时信任度更高(Mayer et al., 2024;Aoki, 2021)。  

系统侧,拟人化可提升互动质量,但效果非线性且情境依赖(Chi et al., 2021;Wu et al., 2023)。可解释性虽关键,却受隐私顾虑限制,过度解释可能降低可用性,需选择性、以用户为中心的透明(Leichtmann et al., 2023;Goisauf et al., 2025)。信任随时间动态变化,需作为过程研究。  

#### 2.1.2 HCI 研究者  
HCI 从交互视角研究信任:信任在交互中被沟通、解读与协商。核心关切包括:  
- 感知能力与可靠性:AI 跨轮次准确一致(Lee et al., 2025;Cao et al., 2025)。  
- 对话安全:减少有害、误导或伦理风险回应(Namvarpour & Razi, 2024;Wang et al., 2025b)。  
- 交互级透明:通过能力披露、解释等帮助用户设定期望(Cao et al., 2025)。  
- 共情与参与:影响用户持续使用意愿(Wang et al., 2025b;Choi et al., 2025)。  
- 可控性:允许用户引导或覆盖系统,维护自主、防止过度依赖(Sun et al., 2025)。  

HCI 视交互为中介层:可信不仅取决于 AI 能力,也取决于其能力、限制与保障如何在心理健康使用场景中被呈现(Thieme et al., 2023)。  

#### 2.1.3 AI 研究者  
AI 领域聚焦模型与评估层标准:  
- 鲁棒性:LLM 输出波动大,需多轮评估(Lupart et al., 2025)。  
- 检索脆弱性:嵌入模型对文风敏感,影响排序与公平,且可能放大偏见(Cao et al., 2025;Liu et al., 2024)。  
- 因果忠实度:生成结果可能表面正确却与证据不符(Wallat et al., 2025)。  
- 评估偏差:LLM-as-Judge 对细微差异不敏感(Balog et al., 2025)。  

因此,AI 视角要求鲁棒、公平、忠实、评估可靠,为人机交互设计与人类信任奠定技术基础。

相似文章

AI安全需要社会科学家

OpenAI Blog

OpenAI主张AI安全研究中的价值对齐需要社会科学家的帮助,以解决人类认知偏差和不一致如何影响用于训练AI系统的数据的问题。该组织提议通过仅涉及人类的实验方法来发现对齐问题,然后再部署机器学习解决方案。

如何打造“谦逊”的AI

MIT News — Artificial Intelligence

MIT研究人员提出了一种用于医疗领域的“谦逊”AI框架,鼓励系统表达不确定性,并以协作副驾驶而非权威预言者的身份发挥作用。

人工智能与幸福感专家委员会

OpenAI Blog

OpenAI 成立了人工智能与幸福感专家委员会,汇集了心理学、精神病学和人机交互领域的顶尖研究人员和专家,以指导开发更安全、更有益的 AI 体验。该委员会将针对不同年龄段的健康 AI 交互提供建议,特别关注青少年用户和心理健康考虑。