对话式XAI能否提升用户表现？一项实验研究

arXiv cs.LG 2026/05/21 04:00 论文

explainable-ai conversational-ai user-performance human-ai-interaction experimental-study xai

摘要

本文介绍了一项实验研究，探讨与基于问答的辅助相比，对话式XAI助手是否能提升用户在预测准确性、模型理解和错误识别方面的表现，初步结果显示无显著性能差异。

arXiv:2605.20439v1 公告类型: new 摘要：可解释人工智能（XAI）技术旨在为预测模型提供洞察并提升用户表现，但通常未能达到预期。对话式XAI助手有望克服这些限制，但关于其对客观性能指标影响的实证证据仍然有限。我们提出了一种实验设计，通过预测准确性、模型理解和错误识别来评估解释辅助。使用可解释的预测模型，我们创建了用户可以通过识别和补偿系统性错误来超越模型的条件。我们将对话式辅助与基于问答的辅助进行比较，以评估哪一种更能支持用户处理模型解释。测试我们实验设计的初步结果显示，两种处理条件下的参与者（N=42）都显著优于模型，但不同辅助类型之间没有表现差异，且整体参与度适中。这些发现为我们计划的全规模研究提供了改进方向，包括加强参与干预和调查驱动改进预测的机制。

查看原文

查看缓存全文

缓存时间: 2026/05/21 06:26

# 对话式可解释人工智能能否提升用户表现？一项实验研究  
来源：https://arxiv.org/abs/2605.20439  
查看PDF (https://arxiv.org/pdf/2605.20439)  

> **摘要：** 可解释人工智能（XAI）技术旨在提供对预测模型的洞察，并提升用户表现，但往往未能达到预期。对话式XAI助手有望克服这些局限，但关于其对客观性能指标影响的实证证据仍然有限。我们提出了一种实验设计，通过预测准确率、模型理解度和错误识别能力来评估解释辅助的效果。利用一个可解释设计的预测模型，我们创造了用户能够通过识别并补偿系统性错误来超越模型的条件。我们将对话式辅助与基于问答的辅助进行对比，以评估哪种方式更能帮助用户处理模型解释。初步实验结果（N=42）显示，两种处理条件下的参与者均显著优于模型，但辅助类型之间未发现表现差异，且整体参与度适中。这些发现为我们计划中的完整研究提供了改进方向，包括增强参与度的干预措施，以及探究驱动预测改进的机制。

## 提交历史

来自 Julian Rosenberger [查看邮件](https://arxiv.org/show-email/80e6267b/2605.20439) **\[v1]** 2026年5月19日 星期二 19:47:17 UTC (1,218 KB)

对话式XAI能否提升用户表现？一项实验研究

相似文章

AI代理如何重塑知识工作：自主性、效率与范围

有质量却无用处：LLM生成的XAI叙述作为信任启发式而非决策辅助工具

迭代优化搜索：用于评估电商中智能搜索架构的双智能体模拟框架

研究人员向1222名受试者提供AI助手，10分钟后将其撤走。表现迅速跌至对照组之下，且参与者彻底放弃尝试。加州大学洛杉矶分校、麻省理工学院、牛津大学与卡内基梅隆大学将其称为“温水煮青蛙”效应。

OmniInteract：面向实时全模态助手的真实世界流式交互基准测试

提交意见反馈