对话式XAI能否提升用户表现?一项实验研究
摘要
本文介绍了一项实验研究,探讨与基于问答的辅助相比,对话式XAI助手是否能提升用户在预测准确性、模型理解和错误识别方面的表现,初步结果显示无显著性能差异。
arXiv:2605.20439v1 公告类型: new
摘要:可解释人工智能(XAI)技术旨在为预测模型提供洞察并提升用户表现,但通常未能达到预期。对话式XAI助手有望克服这些限制,但关于其对客观性能指标影响的实证证据仍然有限。我们提出了一种实验设计,通过预测准确性、模型理解和错误识别来评估解释辅助。使用可解释的预测模型,我们创建了用户可以通过识别和补偿系统性错误来超越模型的条件。我们将对话式辅助与基于问答的辅助进行比较,以评估哪一种更能支持用户处理模型解释。测试我们实验设计的初步结果显示,两种处理条件下的参与者(N=42)都显著优于模型,但不同辅助类型之间没有表现差异,且整体参与度适中。这些发现为我们计划的全规模研究提供了改进方向,包括加强参与干预和调查驱动改进预测的机制。
查看缓存全文
缓存时间: 2026/05/21 06:26
# 对话式可解释人工智能能否提升用户表现?一项实验研究 来源:https://arxiv.org/abs/2605.20439 查看PDF (https://arxiv.org/pdf/2605.20439) > **摘要:** 可解释人工智能(XAI)技术旨在提供对预测模型的洞察,并提升用户表现,但往往未能达到预期。对话式XAI助手有望克服这些局限,但关于其对客观性能指标影响的实证证据仍然有限。我们提出了一种实验设计,通过预测准确率、模型理解度和错误识别能力来评估解释辅助的效果。利用一个可解释设计的预测模型,我们创造了用户能够通过识别并补偿系统性错误来超越模型的条件。我们将对话式辅助与基于问答的辅助进行对比,以评估哪种方式更能帮助用户处理模型解释。初步实验结果(N=42)显示,两种处理条件下的参与者均显著优于模型,但辅助类型之间未发现表现差异,且整体参与度适中。这些发现为我们计划中的完整研究提供了改进方向,包括增强参与度的干预措施,以及探究驱动预测改进的机制。 ## 提交历史 来自 Julian Rosenberger [查看邮件](https://arxiv.org/show-email/80e6267b/2605.20439) **\[v1]** 2026年5月19日 星期二 19:47:17 UTC (1,218 KB)
相似文章
AI代理如何重塑知识工作:自主性、效率与范围
本研究使用Perplexity的生产数据,比较AI代理与对话式助手,发现代理将完成任务时间减少87%,成本降低94%,同时扩展了知识工作的范围和质量。
有质量却无用处:LLM生成的XAI叙述作为信任启发式而非决策辅助工具
本文研究了由LLM从XAI输出生成的高质量自然语言解释(NLEs)是否真的能改善任务性能,发现它们并未提高准确性,反而夸大了信心,揭示了质量-实用性差距。
迭代优化搜索:用于评估电商中智能搜索架构的双智能体模拟框架
eBay的这篇论文提出了一个模块化的双智能体模拟框架,用于评估对话式购物助手架构,能够对响应器设计进行受控比较。关键发现包括:滚动窗口内存在速度上比意图提取内存快35%,系统性故障分析将故障率降低了62%。
研究人员向1222名受试者提供AI助手,10分钟后将其撤走。表现迅速跌至对照组之下,且参与者彻底放弃尝试。加州大学洛杉矶分校、麻省理工学院、牛津大学与卡内基梅隆大学将其称为“温水煮青蛙”效应。
一项涵盖1222名参与者的多机构研究显示,短期使用AI助手(约10分钟)会导致认知能力出现可测量的衰退,且在后续任务中的努力程度低于对照组,该现象被称作“温水煮青蛙”效应。该研究提供了因果证据,表明即便是短期的AI依赖,也可能削弱独立解决问题的表现。
OmniInteract:面向实时全模态助手的真实世界流式交互基准测试
OmniInteract 提出了一个面向实时全模态大语言模型的流式基准测试,评估在线音视频处理能力,要求具备时间定位和交互式响应。实验表明,当前模型表现不佳,最佳整体 IA-QTF1 分数仅为 0.368。