人类心理测量问卷误判LLM行为特征
摘要
本文发现,人类心理测量问卷无法可靠预测LLM在真实交互中的行为,并提出基于生成的分析方法作为更准确的替代方案。
查看缓存全文
缓存时间: 2026/06/09 08:43
论文页面 - 人类心理测量问卷错误描述了大语言模型的行为
来源:https://huggingface.co/papers/2509.10078
摘要
人类心理测量问卷无法可靠预测大语言模型(LLM)在现实交互中的行为,而基于生成的画像方法在理解模型对日常用户查询的响应方面提供了更高的准确性。
我们研究了人类心理测量问卷(https://huggingface.co/papers?q=psychometric%20questionnaires)能否作为可靠工具来刻画和预测LLM在日常用户交互中的行为。我们分析了八款开源LLM(https://huggingface.co/papers?q=LLMs),比较了通过两种不同方法得出的价值与人格画像(https://huggingface.co/papers?q=personality%20profiles):一是基于既有问卷(PVQ-40/21(https://huggingface.co/papers?q=PVQ-40%2F21)和BFI-44/10(https://huggingface.co/papers?q=BFI-44%2F10))的Likert自评(https://huggingface.co/papers?q=Likert%20self-reports),二是基于对日常用户查询的含价值观倾向回复(https://huggingface.co/papers?q=value-laden%20responses)的生成概率(https://huggingface.co/papers?q=generation%20probabilities)。两种画像存在显著差异。内部维度项目的一致性(常被引证为LLM稳定倾向的证据)在生成概率(https://huggingface.co/papers?q=generation%20probabilities)中消失了。我们将这一差距归因于:既有问卷项目中的显式词汇线索使模型能够识别目标构念并作出符合一致、社会期望的回应,而真实的用户查询则不提供此类线索。此外,人口统计角色提示(https://huggingface.co/papers?q=demographic%20persona%20prompts)在人类问卷上使模型的回应产生与真实人类模式一致的偏移,但在对真实用户查询的生成概率(https://huggingface.co/papers?q=generation%20probabilities)回应中未出现类似偏移,这表明它们模拟目标人群在现实用户交互中行为的能力有限。总体而言,我们的研究表明,人类心理测量问卷(https://huggingface.co/papers?q=psychometric%20questionnaires)不足以预测LLM行为,并建议采用基于生成的画像方法作为更准确的衡量手段。
查看 arXiv 页面(https://arxiv.org/abs/2509.10078)查看 PDF(https://arxiv.org/pdf/2509.10078)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2509.10078)
在你的 agent 中获取此论文:
hf papers read 2509.10078
没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
没有模型与此论文关联
在模型 README.md 中引用 arxiv.org/abs/2509.10078 即可从此页面链接。
引用此论文的数据集 0
没有数据集与此论文关联
在数据集 README.md 中引用 arxiv.org/abs/2509.10078 即可从此页面链接。
引用此论文的 Spaces 0
没有 Space 与此论文关联
在 Space README.md 中引用 arxiv.org/abs/2509.10078 即可从此页面链接。
包含此论文的合集 1
相似文章
重新思考LLMs的心理测量学评估:自我报告何时以及为何能预测行为
本文研究了自我报告的心理测量指标何时以及为何能预测大型语言模型的实际行为,发现细粒度、行为特定的工具(计划行为理论)在同一对话中达到了人类水平的连贯性,而像大五人格这样的宽泛特质则不能。
评估 LLM 在受控实验中作为人类代理的可靠性
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
我们向50个大语言模型发放了45份心理问卷。我们发现的结果并非“个性”。
研究人员分析了50个大语言模型在45份心理测量问卷上的表现,识别出一个“匹诺曹维度”(Pinocchio Dimension),该维度衡量模型如何认可内在体验,而非反映真实的人格特质。
LLM人格归纳中的评估漂移:我们是否在移动目标?
本文研究对LLM在长篇散文上进行微调(结合关联的大五人格剖面)是否能稳定问卷回答并归纳目标剖面,发现虽然方差减小,但完整五维剖面的准确率仍接近随机水平。
HumanLLM:通过人类认知模式对大语言模型拟人化的基准测试与改进
HumanLLM 提出了一个框架,通过将心理模式建模为相互作用的因果力来对大语言模型的拟人化进行基准测试和改进。该方法从学术文献中构建了244个心理模式和11,359个多模式场景。研究表明,真正的人类对齐需要认知建模而非表面行为模拟,HumanLLM-8B 在多模式动态上的表现超越了 Qwen3-32B 等更大的模型。