对齐心理健康支持中的人机交互信任:多方利益相关者调查与立场
摘要
一项多机构调查提出了一个三层信任框架,以协调技术、临床和以人为中心的需求,打造用于心理健康支持的可信 AI。
arXiv:2604.20166v1 公告类型:新
摘要:构建用于心理健康支持的可信 AI 系统是跨学科多方利益相关者的共同优先事项。然而,“可信”一词仍定义松散,且在不同场景下操作方式不一。AI 研究通常聚焦技术指标(如鲁棒性、可解释性与安全性),而治疗从业者则强调治疗保真度(如适宜性、共情与长期用户结局)。为弥合这一碎片化格局,我们提出一个涵盖“以人为中心”“以 AI 为中心”及“以交互为中心”的三层信任框架,整合关键利益相关者(如从业者、研究者、监管者)的视角。基于此框架,我们系统回顾了现有 AI 驱动的心理健康研究,并检视从自动指标到临床验证的“可信”评估实践。我们重点指出 NLP 当前所测指标与真实心理健康场景所需之间的关键差距,并勾勒出构建社会技术对齐、真正可信的心理健康支持 AI 的研究议程。
查看缓存全文
缓存时间: 2026/04/23 10:03
# 面向多方利益相关者的心理健康支持中人机交互信任对齐:综述与立场 来源:https://arxiv.org/html/2604.20166 Xin Sun¹,³, Yue Su², Yifan Mo², Qingyu Meng², Yuxuan Li², Saku Sugawara¹, Mengyuan Zhang², Charlotte Gerritsen², Sander L. Koole², Koen Hindriks², Jiahuan Pei² ¹日本国立情报学研究所(NII) ²荷兰阿姆斯特丹自由大学 ³荷兰阿姆斯特丹大学 ###### 摘要 构建用于心理健康支持的可信 AI 系统,是跨学科利益相关者的共同优先事项。然而,“可信”一词仍定义模糊、操作不一。AI 研究常聚焦技术指标(如鲁棒性、可解释性、安全性),而治疗实践者更强调治疗保真度(如适宜性、共情、长期用户结局)。为弥合碎片化的现状,我们提出涵盖“人以信任”“AI 可信”“交互可信”的三层信任框架,整合关键利益相关者(实践者、研究者、监管者等)视角。基于该框架,我们系统梳理了心理健康领域 AI 驱动研究,审视从自动指标到临床验证的“可信”评估实践,揭示 NLP 当前测量与现实心理健康场景需求之间的关键缺口,并勾勒社会技术对齐、真正可信的心理健康 AI 研究议程。 ## 1 引言 见图 1:2021–2025 年 1 706 篇信任相关论文的学科网络呈碎片化。节点大小代表文献量,边粗细表示关联强度。这促使我们提出图 2 的利益相关者驱动信任框架。可视化代码已开源。² 构建可信的人工智能(AI)心理健康支持系统,需要多学科协作,但文献综述显示学科网络高度碎片化(见脚注 2)。AI 领域,大模型(LLM)拓展了心理健康应用(Na et al., 2025),多 LLM 智能体系统的可信研究亦在兴起(Ozgun et al., 2025)。相反,心理治疗研究将人类信任视为临床敏感、情境化、关系性的构念(Chi et al., 2021;Kauttonen et al., 2025;Gille et al., 2025;Rai et al., 2025)。这种框架差异凸显跨学科对齐的必要。 “可信 AI”含义因群体而异:计算机科学家常用鲁棒性、隐私、毒性控制等技术指标,并以困惑度、BLEU 或安全分类器评分评估(Huang et al., 2024;Yu et al., 2025);心理健康实践者则关注治疗依从、共情、危机安全及求助意愿等临床关系指标(Liu & Tao, 2022)。平台、监管者与伦理学家又提出问责与伦理期望(AIHLEG, 2019)。 现有综述多聚焦医学幻觉(Zhu et al., 2025)或 LLM 心理治疗流程(Na et al., 2025),但缺乏跨利益相关者的信任协作指导。本文填补空白,提出“三层信任框架”:人以信任、AI 可信、交互可信,映射实践者、监管者、AI/HCI/安全研究者等视角,并据此系统综述文献,指出开放挑战与研究议程。综述方法详见附录 B。贡献有三: - 提出统一碎片化概念的三层、多利益相关者框架。 - 系统梳理 AI 心理健康文献,揭示各层与利益相关者的侧重及缺口。 - 分析各层评估方法,定位 AI 定义的可信与治疗实践所需信任的差距。 ## 2 概念框架 可信 AI 心理健康非单一定义,而是多学科关切。我们将核心可信标准(透明、可解释、隐私等)提炼为三层框架,并梳理关键利益相关者(实践者、AI/HCI/安全研究者、监管者)。 见图 2:基于跨学科文献,我们识别五类关键利益相关者,提出“人以信任”“交互可信”“AI 可信”三层框架,以组织现有方法、评估实践与挑战。 ### 2.1 利益相关者图景 #### 2.1.1 心理治疗实践者 治疗师将用户信任视为临床敏感变量,指导系统设计。信任随交互情境演化,受技术态度、使用经验、人格、熟悉度、责任归因、社会支持等因素影响(Kauttonen et al., 2025;Zhao et al., 2025;Huo et al., 2022)。AI 知识有限者更易过度信赖(Woodcock et al., 2021);有人类监督时信任度更高(Mayer et al., 2024;Aoki, 2021)。 系统侧,拟人化可提升互动质量,但效果非线性且情境依赖(Chi et al., 2021;Wu et al., 2023)。可解释性虽关键,却受隐私顾虑限制,过度解释可能降低可用性,需选择性、以用户为中心的透明(Leichtmann et al., 2023;Goisauf et al., 2025)。信任随时间动态变化,需作为过程研究。 #### 2.1.2 HCI 研究者 HCI 从交互视角研究信任:信任在交互中被沟通、解读与协商。核心关切包括: - 感知能力与可靠性:AI 跨轮次准确一致(Lee et al., 2025;Cao et al., 2025)。 - 对话安全:减少有害、误导或伦理风险回应(Namvarpour & Razi, 2024;Wang et al., 2025b)。 - 交互级透明:通过能力披露、解释等帮助用户设定期望(Cao et al., 2025)。 - 共情与参与:影响用户持续使用意愿(Wang et al., 2025b;Choi et al., 2025)。 - 可控性:允许用户引导或覆盖系统,维护自主、防止过度依赖(Sun et al., 2025)。 HCI 视交互为中介层:可信不仅取决于 AI 能力,也取决于其能力、限制与保障如何在心理健康使用场景中被呈现(Thieme et al., 2023)。 #### 2.1.3 AI 研究者 AI 领域聚焦模型与评估层标准: - 鲁棒性:LLM 输出波动大,需多轮评估(Lupart et al., 2025)。 - 检索脆弱性:嵌入模型对文风敏感,影响排序与公平,且可能放大偏见(Cao et al., 2025;Liu et al., 2024)。 - 因果忠实度:生成结果可能表面正确却与证据不符(Wallat et al., 2025)。 - 评估偏差:LLM-as-Judge 对细微差异不敏感(Balog et al., 2025)。 因此,AI 视角要求鲁棒、公平、忠实、评估可靠,为人机交互设计与人类信任奠定技术基础。
相似文章
真正让你信任AI的是什么?不是“听起来正确”,而是像信任一个人或一个机构那样信任它?
一场讨论,探讨哪些具体条件(透明度、可验证的记录、持久的身份、可问责性)能让人们像信任人类或机构一样信任AI系统,而不仅仅是将其视为工具。
面向可信Agentic AI:安全性、鲁棒性、隐私与系统安全综合综述
本调查全面审视了可信的Agentic AI,重点关注安全性、鲁棒性、隐私和系统安全。它澄清了关键概念,沿着Agent工作流程识别风险,总结缓解策略,并整合评估指标和基准,旨在作为在高风险环境中部署Agentic AI的实用参考。
AI安全需要社会科学家
OpenAI主张AI安全研究中的价值对齐需要社会科学家的帮助,以解决人类认知偏差和不一致如何影响用于训练AI系统的数据的问题。该组织提议通过仅涉及人类的实验方法来发现对齐问题,然后再部署机器学习解决方案。
(Human) Attention Is (Still) All You Need: 人类监督使AI辅助的社会科学研究可靠
本文提出,AI辅助社会科学研究的可靠性取决于决策架构——即认知劳动在人类与机器之间的分工方式。通过一个预先指定的析因实验,作者表明,一个无约束的多智能体基线在72%的运行中失败,而采用三个架构承诺(限制LLM仅进行推理、确定性数据/估计、以及三个人类决策门控)的组织运行失败率仅为16%。
AI与人类,2026年你更信任谁?
探讨人们在与AI或人类讨论个人话题时是否更轻松,指出AI提供无评判、随时可用的倾听者,但缺乏真实的人类体验。