人类心理测量问卷误判LLM行为特征

Hugging Face Daily Papers 论文

摘要

本文发现,人类心理测量问卷无法可靠预测LLM在真实交互中的行为,并提出基于生成的分析方法作为更准确的替代方案。

我们研究了人类心理测量问卷能否作为可靠工具,用于描述和预测LLM在日常用户交互中的行为。我们分析了八个开源LLM,通过两种方法比较它们的价值观和个性特征:在既有问卷(PVQ-40/21和BFI-44/10)上的李克特自我报告,以及对日常用户查询的带有价值观倾向的响应的生成概率。这两种方法得出的特征差异显著。问卷中构念内项目的一致性(常被视为LLM稳定倾向的证据)在生成概率中消失了。我们将这一差异归因于既有问卷项目中的显性词汇线索使模型能够识别目标构念,并以一致且符合社会期望的方式作答,而真实用户查询则没有此类线索。此外,人口统计角色提示使模型对人类问卷的回答发生转变,其方式与真实人类模式一致,但在对真实用户查询的生成概率中并未出现此类转变,这表明模型在真实用户交互中模拟目标人口统计行为的能力有限。总体而言,我们的研究表明,人类心理测量问卷不足以预测LLM行为,并建议采用基于生成的分析方法作为更准确的衡量手段。
查看原文
查看缓存全文

缓存时间: 2026/06/09 08:43

论文页面 - 人类心理测量问卷错误描述了大语言模型的行为

来源:https://huggingface.co/papers/2509.10078

摘要

人类心理测量问卷无法可靠预测大语言模型(LLM)在现实交互中的行为,而基于生成的画像方法在理解模型对日常用户查询的响应方面提供了更高的准确性。

我们研究了人类心理测量问卷(https://huggingface.co/papers?q=psychometric%20questionnaires)能否作为可靠工具来刻画和预测LLM在日常用户交互中的行为。我们分析了八款开源LLM(https://huggingface.co/papers?q=LLMs),比较了通过两种不同方法得出的价值与人格画像(https://huggingface.co/papers?q=personality%20profiles):一是基于既有问卷(PVQ-40/21(https://huggingface.co/papers?q=PVQ-40%2F21)和BFI-44/10(https://huggingface.co/papers?q=BFI-44%2F10))的Likert自评(https://huggingface.co/papers?q=Likert%20self-reports),二是基于对日常用户查询的含价值观倾向回复(https://huggingface.co/papers?q=value-laden%20responses)的生成概率(https://huggingface.co/papers?q=generation%20probabilities)。两种画像存在显著差异。内部维度项目的一致性(常被引证为LLM稳定倾向的证据)在生成概率(https://huggingface.co/papers?q=generation%20probabilities)中消失了。我们将这一差距归因于:既有问卷项目中的显式词汇线索使模型能够识别目标构念并作出符合一致、社会期望的回应,而真实的用户查询则不提供此类线索。此外,人口统计角色提示(https://huggingface.co/papers?q=demographic%20persona%20prompts)在人类问卷上使模型的回应产生与真实人类模式一致的偏移,但在对真实用户查询的生成概率(https://huggingface.co/papers?q=generation%20probabilities)回应中未出现类似偏移,这表明它们模拟目标人群在现实用户交互中行为的能力有限。总体而言,我们的研究表明,人类心理测量问卷(https://huggingface.co/papers?q=psychometric%20questionnaires)不足以预测LLM行为,并建议采用基于生成的画像方法作为更准确的衡量手段。

查看 arXiv 页面(https://arxiv.org/abs/2509.10078)查看 PDF(https://arxiv.org/pdf/2509.10078)添加到收藏(https://huggingface.co/login?next=%2Fpapers%2F2509.10078)

在你的 agent 中获取此论文:

hf papers read 2509.10078

没有最新 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

没有模型与此论文关联

在模型 README.md 中引用 arxiv.org/abs/2509.10078 即可从此页面链接。

引用此论文的数据集 0

没有数据集与此论文关联

在数据集 README.md 中引用 arxiv.org/abs/2509.10078 即可从此页面链接。

引用此论文的 Spaces 0

没有 Space 与此论文关联

在 Space README.md 中引用 arxiv.org/abs/2509.10078 即可从此页面链接。

包含此论文的合集 1

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。

HumanLLM:通过人类认知模式对大语言模型拟人化的基准测试与改进

arXiv cs.CL

HumanLLM 提出了一个框架,通过将心理模式建模为相互作用的因果力来对大语言模型的拟人化进行基准测试和改进。该方法从学术文献中构建了244个心理模式和11,359个多模式场景。研究表明,真正的人类对齐需要认知建模而非表面行为模拟,HumanLLM-8B 在多模式动态上的表现超越了 Qwen3-32B 等更大的模型。