对齐心理健康支持中的人机交互信任:多方利益相关者调查与立场
摘要
一项多机构调查提出了一个三层信任框架,以协调技术、临床和以人为中心的需求,打造用于心理健康支持的可信 AI。
arXiv:2604.20166v1 公告类型:新
摘要:构建用于心理健康支持的可信 AI 系统是跨学科多方利益相关者的共同优先事项。然而,“可信”一词仍定义松散,且在不同场景下操作方式不一。AI 研究通常聚焦技术指标(如鲁棒性、可解释性与安全性),而治疗从业者则强调治疗保真度(如适宜性、共情与长期用户结局)。为弥合这一碎片化格局,我们提出一个涵盖“以人为中心”“以 AI 为中心”及“以交互为中心”的三层信任框架,整合关键利益相关者(如从业者、研究者、监管者)的视角。基于此框架,我们系统回顾了现有 AI 驱动的心理健康研究,并检视从自动指标到临床验证的“可信”评估实践。我们重点指出 NLP 当前所测指标与真实心理健康场景所需之间的关键差距,并勾勒出构建社会技术对齐、真正可信的心理健康支持 AI 的研究议程。
查看缓存全文
缓存时间: 2026/04/23 10:03
# 面向多方利益相关者的心理健康支持中人机交互信任对齐:综述与立场 来源:https://arxiv.org/html/2604.20166 Xin Sun¹,³, Yue Su², Yifan Mo², Qingyu Meng², Yuxuan Li², Saku Sugawara¹, Mengyuan Zhang², Charlotte Gerritsen², Sander L. Koole², Koen Hindriks², Jiahuan Pei² ¹日本国立情报学研究所(NII) ²荷兰阿姆斯特丹自由大学 ³荷兰阿姆斯特丹大学 ###### 摘要 构建用于心理健康支持的可信 AI 系统,是跨学科利益相关者的共同优先事项。然而,“可信”一词仍定义模糊、操作不一。AI 研究常聚焦技术指标(如鲁棒性、可解释性、安全性),而治疗实践者更强调治疗保真度(如适宜性、共情、长期用户结局)。为弥合碎片化的现状,我们提出涵盖“人以信任”“AI 可信”“交互可信”的三层信任框架,整合关键利益相关者(实践者、研究者、监管者等)视角。基于该框架,我们系统梳理了心理健康领域 AI 驱动研究,审视从自动指标到临床验证的“可信”评估实践,揭示 NLP 当前测量与现实心理健康场景需求之间的关键缺口,并勾勒社会技术对齐、真正可信的心理健康 AI 研究议程。 ## 1 引言 见图 1:2021–2025 年 1 706 篇信任相关论文的学科网络呈碎片化。节点大小代表文献量,边粗细表示关联强度。这促使我们提出图 2 的利益相关者驱动信任框架。可视化代码已开源。² 构建可信的人工智能(AI)心理健康支持系统,需要多学科协作,但文献综述显示学科网络高度碎片化(见脚注 2)。AI 领域,大模型(LLM)拓展了心理健康应用(Na et al., 2025),多 LLM 智能体系统的可信研究亦在兴起(Ozgun et al., 2025)。相反,心理治疗研究将人类信任视为临床敏感、情境化、关系性的构念(Chi et al., 2021;Kauttonen et al., 2025;Gille et al., 2025;Rai et al., 2025)。这种框架差异凸显跨学科对齐的必要。 “可信 AI”含义因群体而异:计算机科学家常用鲁棒性、隐私、毒性控制等技术指标,并以困惑度、BLEU 或安全分类器评分评估(Huang et al., 2024;Yu et al., 2025);心理健康实践者则关注治疗依从、共情、危机安全及求助意愿等临床关系指标(Liu & Tao, 2022)。平台、监管者与伦理学家又提出问责与伦理期望(AIHLEG, 2019)。 现有综述多聚焦医学幻觉(Zhu et al., 2025)或 LLM 心理治疗流程(Na et al., 2025),但缺乏跨利益相关者的信任协作指导。本文填补空白,提出“三层信任框架”:人以信任、AI 可信、交互可信,映射实践者、监管者、AI/HCI/安全研究者等视角,并据此系统综述文献,指出开放挑战与研究议程。综述方法详见附录 B。贡献有三: - 提出统一碎片化概念的三层、多利益相关者框架。 - 系统梳理 AI 心理健康文献,揭示各层与利益相关者的侧重及缺口。 - 分析各层评估方法,定位 AI 定义的可信与治疗实践所需信任的差距。 ## 2 概念框架 可信 AI 心理健康非单一定义,而是多学科关切。我们将核心可信标准(透明、可解释、隐私等)提炼为三层框架,并梳理关键利益相关者(实践者、AI/HCI/安全研究者、监管者)。 见图 2:基于跨学科文献,我们识别五类关键利益相关者,提出“人以信任”“交互可信”“AI 可信”三层框架,以组织现有方法、评估实践与挑战。 ### 2.1 利益相关者图景 #### 2.1.1 心理治疗实践者 治疗师将用户信任视为临床敏感变量,指导系统设计。信任随交互情境演化,受技术态度、使用经验、人格、熟悉度、责任归因、社会支持等因素影响(Kauttonen et al., 2025;Zhao et al., 2025;Huo et al., 2022)。AI 知识有限者更易过度信赖(Woodcock et al., 2021);有人类监督时信任度更高(Mayer et al., 2024;Aoki, 2021)。 系统侧,拟人化可提升互动质量,但效果非线性且情境依赖(Chi et al., 2021;Wu et al., 2023)。可解释性虽关键,却受隐私顾虑限制,过度解释可能降低可用性,需选择性、以用户为中心的透明(Leichtmann et al., 2023;Goisauf et al., 2025)。信任随时间动态变化,需作为过程研究。 #### 2.1.2 HCI 研究者 HCI 从交互视角研究信任:信任在交互中被沟通、解读与协商。核心关切包括: - 感知能力与可靠性:AI 跨轮次准确一致(Lee et al., 2025;Cao et al., 2025)。 - 对话安全:减少有害、误导或伦理风险回应(Namvarpour & Razi, 2024;Wang et al., 2025b)。 - 交互级透明:通过能力披露、解释等帮助用户设定期望(Cao et al., 2025)。 - 共情与参与:影响用户持续使用意愿(Wang et al., 2025b;Choi et al., 2025)。 - 可控性:允许用户引导或覆盖系统,维护自主、防止过度依赖(Sun et al., 2025)。 HCI 视交互为中介层:可信不仅取决于 AI 能力,也取决于其能力、限制与保障如何在心理健康使用场景中被呈现(Thieme et al., 2023)。 #### 2.1.3 AI 研究者 AI 领域聚焦模型与评估层标准: - 鲁棒性:LLM 输出波动大,需多轮评估(Lupart et al., 2025)。 - 检索脆弱性:嵌入模型对文风敏感,影响排序与公平,且可能放大偏见(Cao et al., 2025;Liu et al., 2024)。 - 因果忠实度:生成结果可能表面正确却与证据不符(Wallat et al., 2025)。 - 评估偏差:LLM-as-Judge 对细微差异不敏感(Balog et al., 2025)。 因此,AI 视角要求鲁棒、公平、忠实、评估可靠,为人机交互设计与人类信任奠定技术基础。
相似文章
AI安全需要社会科学家
OpenAI主张AI安全研究中的价值对齐需要社会科学家的帮助,以解决人类认知偏差和不一致如何影响用于训练AI系统的数据的问题。该组织提议通过仅涉及人类的实验方法来发现对齐问题,然后再部署机器学习解决方案。
衡量关键指标:医疗保健中生成式、多模态及智能体AI的基准测试
本文提出了一个针对医疗保健领域生成式、多模态及智能体AI进行基准测试的结构化框架,旨在解决高基准得分与实际临床可靠性、安全性和相关性之间的差距。
如何打造“谦逊”的AI
MIT研究人员提出了一种用于医疗领域的“谦逊”AI框架,鼓励系统表达不确定性,并以协作副驾驶而非权威预言者的身份发挥作用。
人工智能与幸福感专家委员会
OpenAI 成立了人工智能与幸福感专家委员会,汇集了心理学、精神病学和人机交互领域的顶尖研究人员和专家,以指导开发更安全、更有益的 AI 体验。该委员会将针对不同年龄段的健康 AI 交互提供建议,特别关注青少年用户和心理健康考虑。
AI代理在提供商业推荐时应如何避免失去用户信任?
文章讨论了在提供商业推荐的AI代理中维持用户信任的挑战,强调了透明度和责任标准的缺失。它呼吁开发者就如何实现可靠且透明的推荐机制提供反馈。