人类心理测量问卷误判LLM行为特征

Hugging Face Daily Papers 2026/05/29 00:00 论文

llm psychometric questionnaires behavior profiling evaluation ai

摘要

本文发现，人类心理测量问卷无法可靠预测LLM在真实交互中的行为，并提出基于生成的分析方法作为更准确的替代方案。

我们研究了人类心理测量问卷能否作为可靠工具，用于描述和预测LLM在日常用户交互中的行为。我们分析了八个开源LLM，通过两种方法比较它们的价值观和个性特征：在既有问卷（PVQ-40/21和BFI-44/10）上的李克特自我报告，以及对日常用户查询的带有价值观倾向的响应的生成概率。这两种方法得出的特征差异显著。问卷中构念内项目的一致性（常被视为LLM稳定倾向的证据）在生成概率中消失了。我们将这一差异归因于既有问卷项目中的显性词汇线索使模型能够识别目标构念，并以一致且符合社会期望的方式作答，而真实用户查询则没有此类线索。此外，人口统计角色提示使模型对人类问卷的回答发生转变，其方式与真实人类模式一致，但在对真实用户查询的生成概率中并未出现此类转变，这表明模型在真实用户交互中模拟目标人口统计行为的能力有限。总体而言，我们的研究表明，人类心理测量问卷不足以预测LLM行为，并建议采用基于生成的分析方法作为更准确的衡量手段。

查看原文

查看缓存全文

缓存时间: 2026/06/09 08:43

论文页面 - 人类心理测量问卷错误描述了大语言模型的行为

来源：https://huggingface.co/papers/2509.10078

摘要

人类心理测量问卷无法可靠预测大语言模型（LLM）在现实交互中的行为，而基于生成的画像方法在理解模型对日常用户查询的响应方面提供了更高的准确性。

我们研究了人类心理测量问卷（https://huggingface.co/papers?q=psychometric%20questionnaires）能否作为可靠工具来刻画和预测LLM在日常用户交互中的行为。我们分析了八款开源LLM（https://huggingface.co/papers?q=LLMs），比较了通过两种不同方法得出的价值与人格画像（https://huggingface.co/papers?q=personality%20profiles）：一是基于既有问卷（PVQ-40/21（https://huggingface.co/papers?q=PVQ-40%2F21）和BFI-44/10（https://huggingface.co/papers?q=BFI-44%2F10））的Likert自评（https://huggingface.co/papers?q=Likert%20self-reports），二是基于对日常用户查询的含价值观倾向回复（https://huggingface.co/papers?q=value-laden%20responses）的生成概率（https://huggingface.co/papers?q=generation%20probabilities）。两种画像存在显著差异。内部维度项目的一致性（常被引证为LLM稳定倾向的证据）在生成概率（https://huggingface.co/papers?q=generation%20probabilities）中消失了。我们将这一差距归因于：既有问卷项目中的显式词汇线索使模型能够识别目标构念并作出符合一致、社会期望的回应，而真实的用户查询则不提供此类线索。此外，人口统计角色提示（https://huggingface.co/papers?q=demographic%20persona%20prompts）在人类问卷上使模型的回应产生与真实人类模式一致的偏移，但在对真实用户查询的生成概率（https://huggingface.co/papers?q=generation%20probabilities）回应中未出现类似偏移，这表明它们模拟目标人群在现实用户交互中行为的能力有限。总体而言，我们的研究表明，人类心理测量问卷（https://huggingface.co/papers?q=psychometric%20questionnaires）不足以预测LLM行为，并建议采用基于生成的画像方法作为更准确的衡量手段。

查看 arXiv 页面（https://arxiv.org/abs/2509.10078）查看 PDF（https://arxiv.org/pdf/2509.10078）添加到收藏（https://huggingface.co/login?next=%2Fpapers%2F2509.10078）

在你的 agent 中获取此论文：

hf papers read 2509.10078

没有最新 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型与此论文关联

在模型 README.md 中引用 arxiv.org/abs/2509.10078 即可从此页面链接。

引用此论文的数据集 0

没有数据集与此论文关联

在数据集 README.md 中引用 arxiv.org/abs/2509.10078 即可从此页面链接。

引用此论文的 Spaces 0

没有 Space 与此论文关联

在 Space README.md 中引用 arxiv.org/abs/2509.10078 即可从此页面链接。

人类心理测量问卷误判LLM行为特征

论文页面 - 人类心理测量问卷错误描述了大语言模型的行为

摘要

引用此论文的模型 0

引用此论文的数据集 0

引用此论文的 Spaces 0

包含此论文的合集 1

相似文章

重新思考LLMs的心理测量学评估：自我报告何时以及为何能预测行为

评估 LLM 在受控实验中作为人类代理的可靠性

我们向50个大语言模型发放了45份心理问卷。我们发现的结果并非“个性”。

LLM人格归纳中的评估漂移：我们是否在移动目标？

HumanLLM：通过人类认知模式对大语言模型拟人化的基准测试与改进

提交意见反馈