对齐心理健康支持中的人机交互信任：多方利益相关者调查与立场

arXiv cs.CL 2026/04/23 04:00 论文

摘要

一项多机构调查提出了一个三层信任框架，以协调技术、临床和以人为中心的需求，打造用于心理健康支持的可信 AI。

arXiv:2604.20166v1 公告类型：新摘要：构建用于心理健康支持的可信 AI 系统是跨学科多方利益相关者的共同优先事项。然而，“可信”一词仍定义松散，且在不同场景下操作方式不一。AI 研究通常聚焦技术指标（如鲁棒性、可解释性与安全性），而治疗从业者则强调治疗保真度（如适宜性、共情与长期用户结局）。为弥合这一碎片化格局，我们提出一个涵盖“以人为中心”“以 AI 为中心”及“以交互为中心”的三层信任框架，整合关键利益相关者（如从业者、研究者、监管者）的视角。基于此框架，我们系统回顾了现有 AI 驱动的心理健康研究，并检视从自动指标到临床验证的“可信”评估实践。我们重点指出 NLP 当前所测指标与真实心理健康场景所需之间的关键差距，并勾勒出构建社会技术对齐、真正可信的心理健康支持 AI 的研究议程。

查看原文

查看缓存全文

缓存时间: 2026/04/23 10:03

# 面向多方利益相关者的心理健康支持中人机交互信任对齐：综述与立场  
来源：https://arxiv.org/html/2604.20166  
Xin Sun¹,³, Yue Su², Yifan Mo², Qingyu Meng², Yuxuan Li², Saku Sugawara¹, Mengyuan Zhang², Charlotte Gerritsen², Sander L. Koole², Koen Hindriks², Jiahuan Pei²  
¹日本国立情报学研究所（NII）  
²荷兰阿姆斯特丹自由大学  
³荷兰阿姆斯特丹大学  

###### 摘要  
构建用于心理健康支持的可信 AI 系统，是跨学科利益相关者的共同优先事项。然而，“可信”一词仍定义模糊、操作不一。AI 研究常聚焦技术指标（如鲁棒性、可解释性、安全性），而治疗实践者更强调治疗保真度（如适宜性、共情、长期用户结局）。为弥合碎片化的现状，我们提出涵盖“人以信任”“AI 可信”“交互可信”的三层信任框架，整合关键利益相关者（实践者、研究者、监管者等）视角。基于该框架，我们系统梳理了心理健康领域 AI 驱动研究，审视从自动指标到临床验证的“可信”评估实践，揭示 NLP 当前测量与现实心理健康场景需求之间的关键缺口，并勾勒社会技术对齐、真正可信的心理健康 AI 研究议程。  

## 1 引言  
见图 1：2021–2025 年 1 706 篇信任相关论文的学科网络呈碎片化。节点大小代表文献量，边粗细表示关联强度。这促使我们提出图 2 的利益相关者驱动信任框架。可视化代码已开源。²  

构建可信的人工智能（AI）心理健康支持系统，需要多学科协作，但文献综述显示学科网络高度碎片化（见脚注 2）。AI 领域，大模型（LLM）拓展了心理健康应用（Na et al., 2025），多 LLM 智能体系统的可信研究亦在兴起（Ozgun et al., 2025）。相反，心理治疗研究将人类信任视为临床敏感、情境化、关系性的构念（Chi et al., 2021；Kauttonen et al., 2025；Gille et al., 2025；Rai et al., 2025）。这种框架差异凸显跨学科对齐的必要。  

“可信 AI”含义因群体而异：计算机科学家常用鲁棒性、隐私、毒性控制等技术指标，并以困惑度、BLEU 或安全分类器评分评估（Huang et al., 2024；Yu et al., 2025）；心理健康实践者则关注治疗依从、共情、危机安全及求助意愿等临床关系指标（Liu & Tao, 2022）。平台、监管者与伦理学家又提出问责与伦理期望（AIHLEG, 2019）。  

现有综述多聚焦医学幻觉（Zhu et al., 2025）或 LLM 心理治疗流程（Na et al., 2025），但缺乏跨利益相关者的信任协作指导。本文填补空白，提出“三层信任框架”：人以信任、AI 可信、交互可信，映射实践者、监管者、AI/HCI/安全研究者等视角，并据此系统综述文献，指出开放挑战与研究议程。综述方法详见附录 B。贡献有三：  
- 提出统一碎片化概念的三层、多利益相关者框架。  
- 系统梳理 AI 心理健康文献，揭示各层与利益相关者的侧重及缺口。  
- 分析各层评估方法，定位 AI 定义的可信与治疗实践所需信任的差距。  

## 2 概念框架  
可信 AI 心理健康非单一定义，而是多学科关切。我们将核心可信标准（透明、可解释、隐私等）提炼为三层框架，并梳理关键利益相关者（实践者、AI/HCI/安全研究者、监管者）。  

见图 2：基于跨学科文献，我们识别五类关键利益相关者，提出“人以信任”“交互可信”“AI 可信”三层框架，以组织现有方法、评估实践与挑战。  

### 2.1 利益相关者图景  

#### 2.1.1 心理治疗实践者  
治疗师将用户信任视为临床敏感变量，指导系统设计。信任随交互情境演化，受技术态度、使用经验、人格、熟悉度、责任归因、社会支持等因素影响（Kauttonen et al., 2025；Zhao et al., 2025；Huo et al., 2022）。AI 知识有限者更易过度信赖（Woodcock et al., 2021）；有人类监督时信任度更高（Mayer et al., 2024；Aoki, 2021）。  

系统侧，拟人化可提升互动质量，但效果非线性且情境依赖（Chi et al., 2021；Wu et al., 2023）。可解释性虽关键，却受隐私顾虑限制，过度解释可能降低可用性，需选择性、以用户为中心的透明（Leichtmann et al., 2023；Goisauf et al., 2025）。信任随时间动态变化，需作为过程研究。  

#### 2.1.2 HCI 研究者  
HCI 从交互视角研究信任：信任在交互中被沟通、解读与协商。核心关切包括：  
- 感知能力与可靠性：AI 跨轮次准确一致（Lee et al., 2025；Cao et al., 2025）。  
- 对话安全：减少有害、误导或伦理风险回应（Namvarpour & Razi, 2024；Wang et al., 2025b）。  
- 交互级透明：通过能力披露、解释等帮助用户设定期望（Cao et al., 2025）。  
- 共情与参与：影响用户持续使用意愿（Wang et al., 2025b；Choi et al., 2025）。  
- 可控性：允许用户引导或覆盖系统，维护自主、防止过度依赖（Sun et al., 2025）。  

HCI 视交互为中介层：可信不仅取决于 AI 能力，也取决于其能力、限制与保障如何在心理健康使用场景中被呈现（Thieme et al., 2023）。  

#### 2.1.3 AI 研究者  
AI 领域聚焦模型与评估层标准：  
- 鲁棒性：LLM 输出波动大，需多轮评估（Lupart et al., 2025）。  
- 检索脆弱性：嵌入模型对文风敏感，影响排序与公平，且可能放大偏见（Cao et al., 2025；Liu et al., 2024）。  
- 因果忠实度：生成结果可能表面正确却与证据不符（Wallat et al., 2025）。  
- 评估偏差：LLM-as-Judge 对细微差异不敏感（Balog et al., 2025）。  

因此，AI 视角要求鲁棒、公平、忠实、评估可靠，为人机交互设计与人类信任奠定技术基础。

对齐心理健康支持中的人机交互信任：多方利益相关者调查与立场

相似文章

真正让你信任AI的是什么？不是“听起来正确”，而是像信任一个人或一个机构那样信任它？

面向可信Agentic AI：安全性、鲁棒性、隐私与系统安全综合综述

AI安全需要社会科学家

(Human) Attention Is (Still) All You Need: 人类监督使AI辅助的社会科学研究可靠

AI与人类，2026年你更信任谁？

提交意见反馈