对话式XAI能否提升用户表现?一项实验研究

arXiv cs.LG 论文

摘要

本文介绍了一项实验研究,探讨与基于问答的辅助相比,对话式XAI助手是否能提升用户在预测准确性、模型理解和错误识别方面的表现,初步结果显示无显著性能差异。

arXiv:2605.20439v1 公告类型: new 摘要:可解释人工智能(XAI)技术旨在为预测模型提供洞察并提升用户表现,但通常未能达到预期。对话式XAI助手有望克服这些限制,但关于其对客观性能指标影响的实证证据仍然有限。我们提出了一种实验设计,通过预测准确性、模型理解和错误识别来评估解释辅助。使用可解释的预测模型,我们创建了用户可以通过识别和补偿系统性错误来超越模型的条件。我们将对话式辅助与基于问答的辅助进行比较,以评估哪一种更能支持用户处理模型解释。测试我们实验设计的初步结果显示,两种处理条件下的参与者(N=42)都显著优于模型,但不同辅助类型之间没有表现差异,且整体参与度适中。这些发现为我们计划的全规模研究提供了改进方向,包括加强参与干预和调查驱动改进预测的机制。
查看原文
查看缓存全文

缓存时间: 2026/05/21 06:26

# 对话式可解释人工智能能否提升用户表现?一项实验研究  
来源:https://arxiv.org/abs/2605.20439  
查看PDF (https://arxiv.org/pdf/2605.20439)  

> **摘要:** 可解释人工智能(XAI)技术旨在提供对预测模型的洞察,并提升用户表现,但往往未能达到预期。对话式XAI助手有望克服这些局限,但关于其对客观性能指标影响的实证证据仍然有限。我们提出了一种实验设计,通过预测准确率、模型理解度和错误识别能力来评估解释辅助的效果。利用一个可解释设计的预测模型,我们创造了用户能够通过识别并补偿系统性错误来超越模型的条件。我们将对话式辅助与基于问答的辅助进行对比,以评估哪种方式更能帮助用户处理模型解释。初步实验结果(N=42)显示,两种处理条件下的参与者均显著优于模型,但辅助类型之间未发现表现差异,且整体参与度适中。这些发现为我们计划中的完整研究提供了改进方向,包括增强参与度的干预措施,以及探究驱动预测改进的机制。

## 提交历史

来自 Julian Rosenberger [查看邮件](https://arxiv.org/show-email/80e6267b/2605.20439) **\[v1]** 2026年5月19日 星期二 19:47:17 UTC (1,218 KB)

相似文章

研究人员向1222名受试者提供AI助手,10分钟后将其撤走。表现迅速跌至对照组之下,且参与者彻底放弃尝试。加州大学洛杉矶分校、麻省理工学院、牛津大学与卡内基梅隆大学将其称为“温水煮青蛙”效应。

Reddit r/artificial

一项涵盖1222名参与者的多机构研究显示,短期使用AI助手(约10分钟)会导致认知能力出现可测量的衰退,且在后续任务中的努力程度低于对照组,该现象被称作“温水煮青蛙”效应。该研究提供了因果证据,表明即便是短期的AI依赖,也可能削弱独立解决问题的表现。