我们能信任AI推断的用户状态吗?一个用于验证LLM在操作环境中用户状态分类可靠性的心理测量学框架
摘要
本文实证检验了基于LLM的用户状态分类的心理测量学可靠性,发现213项指标中仅有31项满足可靠性标准,对实时自适应系统中的信任提出了质疑。
arXiv:2605.15734v1 公告类型:新
摘要:在对话和自适应系统中使用大语言模型来评估用户状态,其前提是用于此类评估的指标在个体分数水平上是稳定且可解释的。本文通过实证检验了这一假设,重点关注人工智能(AI)对用户状态测量的心理测量学可靠性。
本研究采用重复评估程序来评估一组广泛指标在三种不同双峰大语言模型(GPT-4o audio、Gemini 2.0 Flash、Gemini 2.5 Flash)上的可重复性。分析包括个体分数可靠性和汇总可靠性,使我们能够区分可能对实时自适应有用的指标与仅在汇总分析中保留其价值的指标。
结果表明,在解释性领域中,指标的可靠性不能被视为默认属性。个体分数水平上缺乏稳定性排除了将这些分数解释为实时自适应系统中用户状态指标的可能性,即使这些指标在汇总后表现出稳定性。同时,研究表明,个体不稳定的指标可以在事后研究中保留分析效用,识别控制交互的规则及其与用户体验参数(如满意度、信任和参与度)的关系。
本研究的主要贡献,除了量化问题的严重性(213项指标中仅有31项满足标准)外,还提出了一个可复制的评估框架,实现了对指标适用性的可衡量评估。这种方法支持更负责任的自适应系统AI设计,其中结果的解释需要明确验证可靠性并随时间监控违规行为。
查看缓存全文
缓存时间: 2026/05/18 06:34
# 我们能信任AI推断的用户状态吗?一个用于验证LLMs在操作环境中用户状态分类可靠性的心理测量学框架 来源:https://arxiv.org/abs/2605.15734 查看PDF(https://arxiv.org/pdf/2605.15734) > **摘要:**在对话式与自适应系统中,使用大语言模型评估用户状态的前提假设是,用于此类评估的指标在个体分数层面上具有稳定性和可解释性。本文对这一假设进行了实证检验,重点聚焦人工智能(AI)对用户状态测量的心理测量可靠性。本研究采用复制评估程序,评估了一组广泛的指标在三种不同双模态大语言模型(GPT-4o audio、Gemini 2.0 Flash、Gemini 2.5 Flash)上的可重复性。分析既包括个体分数可靠性,也包括聚合可靠性,从而能够区分哪些指标可能对实时自适应有用,哪些仅在聚合分析中保留其价值。结果表明,在解释性领域中,指标可靠性不能被视为默认属性。个体分数层面缺乏稳定性,使得这些分数无法在实时自适应系统中作为用户状态的指示器进行解释——即使这些指标在聚合后表现出稳定性。同时,研究表明,个体层面不稳定的指标在后验分析中仍可保留分析效用,用于识别支配交互的规则及其与满意度、信任和参与度等用户体验参数的关系。本工作的主要贡献,除了量化问题的严重性(213个指标中仅有31个符合标准)外,还在于提出了一个可复制的评估框架,从而实现对指标适用性的可测量评估。这种方法支持更负责任的自适应系统AI设计,在此类设计中,结果的解释需要明确验证可靠性,并持续监控随时间出现的违规情况。 ## 提交记录 发件人:伊莎贝拉·克热明斯卡博士 [查看邮箱](https://arxiv.org/show-email/287eac86/2605.15734) **[v1]** 2026年5月15日星期五 08:43:26 UTC(2,921 KB)
相似文章
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
审视LLM中类人行为:模型行为、用户因素和系统提示的多维度分析
本文对LLM中的类人行为进行了多维度分析,研究了来自四个模型的21,000个对话中的普遍性、影响和可控性,发现行为因模型和用户因素而异,并对负责任的设计具有启示意义。
人类心理测量问卷误判LLM行为特征
本文发现,人类心理测量问卷无法可靠预测LLM在真实交互中的行为,并提出基于生成的分析方法作为更准确的替代方案。
社交互动代理中的信任校准:基于大语言模型的性别化多模态行为生成研究
本文研究了使用大语言模型生成多模态行为(语言、声音、手势、面部表情)以校准社交互动代理中的信任。研究发现,虽然大语言模型能够生成与预期可信赖特征一致的行为,但也会再现社会性别刻板印象。
在LLM个性化中重新聚焦人类
本文研究了在评估LLM个性化的三个阶段(属性提取、相关性匹配和响应生成)中,合成数据与人类数据之间的差距。结果表明,模型在真实人类数据上表现更差,作者引入了轻量级训练干预措施以改善对齐。