我们能信任AI推断的用户状态吗？一个用于验证LLM在操作环境中用户状态分类可靠性的心理测量学框架

arXiv cs.AI 2026/05/18 04:00 论文

psychometrics llm-reliability user-states ai-trust adaptive-systems replication-study evaluation-framework

摘要

本文实证检验了基于LLM的用户状态分类的心理测量学可靠性，发现213项指标中仅有31项满足可靠性标准，对实时自适应系统中的信任提出了质疑。

arXiv:2605.15734v1 公告类型：新摘要：在对话和自适应系统中使用大语言模型来评估用户状态，其前提是用于此类评估的指标在个体分数水平上是稳定且可解释的。本文通过实证检验了这一假设，重点关注人工智能（AI）对用户状态测量的心理测量学可靠性。本研究采用重复评估程序来评估一组广泛指标在三种不同双峰大语言模型（GPT-4o audio、Gemini 2.0 Flash、Gemini 2.5 Flash）上的可重复性。分析包括个体分数可靠性和汇总可靠性，使我们能够区分可能对实时自适应有用的指标与仅在汇总分析中保留其价值的指标。结果表明，在解释性领域中，指标的可靠性不能被视为默认属性。个体分数水平上缺乏稳定性排除了将这些分数解释为实时自适应系统中用户状态指标的可能性，即使这些指标在汇总后表现出稳定性。同时，研究表明，个体不稳定的指标可以在事后研究中保留分析效用，识别控制交互的规则及其与用户体验参数（如满意度、信任和参与度）的关系。本研究的主要贡献，除了量化问题的严重性（213项指标中仅有31项满足标准）外，还提出了一个可复制的评估框架，实现了对指标适用性的可衡量评估。这种方法支持更负责任的自适应系统AI设计，其中结果的解释需要明确验证可靠性并随时间监控违规行为。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:34

# 我们能信任AI推断的用户状态吗？一个用于验证LLMs在操作环境中用户状态分类可靠性的心理测量学框架
来源：https://arxiv.org/abs/2605.15734
查看PDF（https://arxiv.org/pdf/2605.15734）

> **摘要：**在对话式与自适应系统中，使用大语言模型评估用户状态的前提假设是，用于此类评估的指标在个体分数层面上具有稳定性和可解释性。本文对这一假设进行了实证检验，重点聚焦人工智能（AI）对用户状态测量的心理测量可靠性。本研究采用复制评估程序，评估了一组广泛的指标在三种不同双模态大语言模型（GPT-4o audio、Gemini 2.0 Flash、Gemini 2.5 Flash）上的可重复性。分析既包括个体分数可靠性，也包括聚合可靠性，从而能够区分哪些指标可能对实时自适应有用，哪些仅在聚合分析中保留其价值。结果表明，在解释性领域中，指标可靠性不能被视为默认属性。个体分数层面缺乏稳定性，使得这些分数无法在实时自适应系统中作为用户状态的指示器进行解释——即使这些指标在聚合后表现出稳定性。同时，研究表明，个体层面不稳定的指标在后验分析中仍可保留分析效用，用于识别支配交互的规则及其与满意度、信任和参与度等用户体验参数的关系。本工作的主要贡献，除了量化问题的严重性（213个指标中仅有31个符合标准）外，还在于提出了一个可复制的评估框架，从而实现对指标适用性的可测量评估。这种方法支持更负责任的自适应系统AI设计，在此类设计中，结果的解释需要明确验证可靠性，并持续监控随时间出现的违规情况。

## 提交记录

发件人：伊莎贝拉·克热明斯卡博士 [查看邮箱](https://arxiv.org/show-email/287eac86/2605.15734) **[v1]** 2026年5月15日星期五 08:43:26 UTC（2,921 KB）

我们能信任AI推断的用户状态吗？一个用于验证LLM在操作环境中用户状态分类可靠性的心理测量学框架

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

审视LLM中类人行为：模型行为、用户因素和系统提示的多维度分析

人类心理测量问卷误判LLM行为特征

社交互动代理中的信任校准：基于大语言模型的性别化多模态行为生成研究

在LLM个性化中重新聚焦人类

提交意见反馈