我们能信任AI推断的用户状态吗?一个用于验证LLM在操作环境中用户状态分类可靠性的心理测量学框架

arXiv cs.AI 论文

摘要

本文实证检验了基于LLM的用户状态分类的心理测量学可靠性,发现213项指标中仅有31项满足可靠性标准,对实时自适应系统中的信任提出了质疑。

arXiv:2605.15734v1 公告类型:新 摘要:在对话和自适应系统中使用大语言模型来评估用户状态,其前提是用于此类评估的指标在个体分数水平上是稳定且可解释的。本文通过实证检验了这一假设,重点关注人工智能(AI)对用户状态测量的心理测量学可靠性。 本研究采用重复评估程序来评估一组广泛指标在三种不同双峰大语言模型(GPT-4o audio、Gemini 2.0 Flash、Gemini 2.5 Flash)上的可重复性。分析包括个体分数可靠性和汇总可靠性,使我们能够区分可能对实时自适应有用的指标与仅在汇总分析中保留其价值的指标。 结果表明,在解释性领域中,指标的可靠性不能被视为默认属性。个体分数水平上缺乏稳定性排除了将这些分数解释为实时自适应系统中用户状态指标的可能性,即使这些指标在汇总后表现出稳定性。同时,研究表明,个体不稳定的指标可以在事后研究中保留分析效用,识别控制交互的规则及其与用户体验参数(如满意度、信任和参与度)的关系。 本研究的主要贡献,除了量化问题的严重性(213项指标中仅有31项满足标准)外,还提出了一个可复制的评估框架,实现了对指标适用性的可衡量评估。这种方法支持更负责任的自适应系统AI设计,其中结果的解释需要明确验证可靠性并随时间监控违规行为。
查看原文
查看缓存全文

缓存时间: 2026/05/18 06:34

# 我们能信任AI推断的用户状态吗?一个用于验证LLMs在操作环境中用户状态分类可靠性的心理测量学框架
来源:https://arxiv.org/abs/2605.15734
查看PDF(https://arxiv.org/pdf/2605.15734)

> **摘要:**在对话式与自适应系统中,使用大语言模型评估用户状态的前提假设是,用于此类评估的指标在个体分数层面上具有稳定性和可解释性。本文对这一假设进行了实证检验,重点聚焦人工智能(AI)对用户状态测量的心理测量可靠性。本研究采用复制评估程序,评估了一组广泛的指标在三种不同双模态大语言模型(GPT-4o audio、Gemini 2.0 Flash、Gemini 2.5 Flash)上的可重复性。分析既包括个体分数可靠性,也包括聚合可靠性,从而能够区分哪些指标可能对实时自适应有用,哪些仅在聚合分析中保留其价值。结果表明,在解释性领域中,指标可靠性不能被视为默认属性。个体分数层面缺乏稳定性,使得这些分数无法在实时自适应系统中作为用户状态的指示器进行解释——即使这些指标在聚合后表现出稳定性。同时,研究表明,个体层面不稳定的指标在后验分析中仍可保留分析效用,用于识别支配交互的规则及其与满意度、信任和参与度等用户体验参数的关系。本工作的主要贡献,除了量化问题的严重性(213个指标中仅有31个符合标准)外,还在于提出了一个可复制的评估框架,从而实现对指标适用性的可测量评估。这种方法支持更负责任的自适应系统AI设计,在此类设计中,结果的解释需要明确验证可靠性,并持续监控随时间出现的违规情况。

## 提交记录

发件人:伊莎贝拉·克热明斯卡博士 [查看邮箱](https://arxiv.org/show-email/287eac86/2605.15734) **[v1]** 2026年5月15日星期五 08:43:26 UTC(2,921 KB)

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。

基准是否低估了 LLM 的性能?采用以大语言模型为先、人工仲裁的评估方法评估幻觉检测

arXiv cs.CL

本文通过采用以大语言模型为先、人工仲裁的评估方法重新评估幻觉检测数据集,研究了标准基准是否低估了大语言模型(LLM)的性能。研究发现,在仲裁过程中融入大语言模型的推理能力可以提高评估的一致性,并表明针对容易产生歧义的任务,采用模型辅助的重新评估能产生更可靠的基准。

面向可靠LLM判断的边际自适应置信度排序

arXiv cs.LG

本文提出了一种针对LLM作为评判系统的基于边际的置信度排序方法,通过学习专用估计器来确保置信度与人类分歧风险之间的单调性,具有泛化保证,并在多个数据集上提高了排序准确性。