LLM人格归纳中的评估漂移：我们是否在移动目标？

arXiv cs.CL 2026/05/19 04:00 论文

llm personality-induction big-five fine-tuning evaluation-drift ipip-neo

摘要

本文研究对LLM在长篇散文上进行微调（结合关联的大五人格剖面）是否能稳定问卷回答并归纳目标剖面，发现虽然方差减小，但完整五维剖面的准确率仍接近随机水平。

arXiv:2605.16996v1 公告类型：新摘要：大型语言模型能否可靠地表现出类似人类的个性，还是仅仅在没有稳定基础剖面的情况下模仿表面线索？为了探究这一点，我们通过在长篇散文上微调LLM来归纳个性，其中每篇散文都关联一个目标大五人格剖面。然后，我们使用IPIP-NEO问卷评估所归纳个性的稳定性和保真度。具体来说，我们提出以下问题：(i) 后训练（SFT、DPO、ORPO）是否能在提示重述下稳定问卷得分？(ii) 它能否从无指导的散文中归纳出目标大五剖面？我们的结果表明，微调一致地减少了五个模型的问卷响应方差，直接缓解了预训练模型中报告的评估脆弱性。然而，这种新获得的稳定性揭示了一个更根本的限制：即使单特质得分有所提高，完整五维剖面的准确率仍接近随机水平。这表明无指导的散文缺乏忠实表达个性所需的线索。因此，我们主张使用基于场景的数据集或交互式启发方法，随着时间的推移积累测试对齐的证据。

查看原文

查看缓存全文

缓存时间: 2026/05/19 06:37

# LLM个性诱导中的评估漂移：我们是否在移动球门柱？
来源：https://arxiv.org/html/2605.16996
###### 摘要

大型语言模型能否可靠地表达类似人类的个性，还是仅仅模仿表面线索而缺乏稳定的底层特征？为探究此问题，我们通过对长篇随笔进行微调来诱导LLM的个性，每篇随笔都与目标大五人格剖面相关联。然后，我们使用IPIP-NEO问卷评估所诱导个性的稳定性和保真度。具体而言，我们提出以下问题：(i) 后训练（SFT、DPO、ORPO）是否能稳定提示重写下的问卷分数？(ii) 它能否从无引导的随笔中诱导出目标大五人格剖面？我们的结果表明，微调持续降低了五个模型在问卷回答中的方差，直接缓解了预训练模型中报告的评估脆弱性。然而，这种新获得的稳定性揭示了一个更根本的限制：即使单项得分有所改善，完整五维剖面的准确率仍接近随机水平。这表明无引导的随笔缺乏忠实表达个性所需的线索。因此，我们主张使用情境化数据集或交互式诱导方法，随时间累积测试对齐的证据。关键词：人类个性，大五人格，IPIP-NEO，自我评估，微调，强化学习

\NAT@set@cites

LLM个性诱导中的评估漂移：我们是否在移动球门柱？

Prateek Rajput∗, Yewei Song, Iyiola E. Olatunji, Jacques Klein, Tegawendé F. Bissyandé
卢森堡大学，卢森堡埃施-阿尔泽特
\{prateek.rajput, yewei.song, emmanuel.olatunji, jacques.klein, tegewende.bissyande\}@uni.lu
∗与Zortify合作研究
摘要内容

11footnotetext:代码、数据和提示：https://github.com/pkrajput/personality_induction

## 1. 引言

个性作为一个概念，长期以来一直是心理学家研究的对象，因为它塑造人类行为、情感表达并影响社会互动。从本质上讲，个性指的是表征个体的行为与情感的一致模式Goldberg (1993 (https://arxiv.org/html/2605.16996#bib.bib10)); Yarkoni (2010 (https://arxiv.org/html/2605.16996#bib.bib41))。这一构念最常通过大五框架McCrae and John (1992 (https://arxiv.org/html/2605.16996#bib.bib27)); John and Srivastava (1999 (https://arxiv.org/html/2605.16996#bib.bib22))来操作化，该分类法对于理解社会互动和行为预测至关重要。可靠且可重复地测量个性的能力历来依赖于自我报告工具和专业人员的行为观察John and Srivastava (1999 (https://arxiv.org/html/2605.16996#bib.bib22))，这一过程本质上难以规模化。这一局限性推动了自动化方法的需求。

**LLM个性诱导的挑战。** 随着基础模型（尤其是LLM）的兴起，一个新的挑战出现了：这些系统能否被注入可辨识且一致的个性特质，从而在其回答中模仿人类行为？尽管先前的工作主要强调个性化Zhang et al. (2022 (https://arxiv.org/html/2605.16996#bib.bib42))和数据合成Hämäläinen et al. (2023 (https://arxiv.org/html/2605.16996#bib.bib14))作为诱导LLM个性的主要动机，但我们识别出其他几个驱动因素，如改善叙事连贯性、增加信任和可预测性、实现模型输出的可控性、深化人机交互研究，以及支持长期AI身份形成。这些动机凸显了开发原则性、稳定且可解释的个性诱导方法的更广泛效用和紧迫性。

请参考图注
图1：现有个性诱导方法概览、其局限性以及我们方法的动机
请参考图注
图2：比较评估问卷统计变异的 methodological 概览

**现有方法与局限性。** 实现这一目标的努力催生了多种实验方法。早期工作主要利用受控提示技术来引导LLM输出针对特定个性维度Serapio-García et al. (2023 (https://arxiv.org/html/2605.16996#bib.bib37)); Mao et al. (2023 (https://arxiv.org/html/2605.16996#bib.bib25)); Caron and Srivastava (2023 (https://arxiv.org/html/2605.16996#bib.bib1)); Li et al. (2016 (https://arxiv.org/html/2605.16996#bib.bib23))。这些方法通常针对单个个性维度，但其结果在捕捉全部个性特质谱系方面仍不完整，即使在单一维度上的表现也并不特别令人印象深刻。最近的方法试图通过预训练和微调将个性特质隐式地注入LLM。一些研究者甚至认为个性特质可能作为广泛文本学习的次要结果自然出现Hilliard et al. (2024 (https://arxiv.org/html/2605.16996#bib.bib16))，而另一些研究者则认为，尤其是在评估LLM时，生成回答的变异性引发了对借用心理学文献的评估方法可靠性的担忧Gupta et al. (2024 (https://arxiv.org/html/2605.16996#bib.bib13)); Frisch and Giulianelli (2024 (https://arxiv.org/html/2605.16996#bib.bib7)); Salecha et al. (2024 (https://arxiv.org/html/2605.16996#bib.bib35))。图1 (https://arxiv.org/html/2605.16996#S1.F1)展示了已尝试的方法及其局限性概览。

除了单一维度定位，一些研究尝试探究LLM是否能在不同情境下保持恒定的人格剖面。例如，在自动个性识别相关领域的研究表明，个性的语言标记可能显著依赖于文化Park et al. (2015 (https://arxiv.org/html/2605.16996#bib.bib30)); 跨语言分析的工作也证明了这一点Mairesse et al. (2007 (https://arxiv.org/html/2605.16996#bib.bib24)); Farnadi et al. (2013 (https://arxiv.org/html/2605.16996#bib.bib6))。其他研究者尝试用LLM观察它们能否根据人类反馈调整风格或“角色”Ouyang et al. (2022 (https://arxiv.org/html/2605.16996#bib.bib29))。这一系列工作显示出实时调整的潜力Ziegler et al. (2019 (https://arxiv.org/html/2605.16996#bib.bib43))。其他方法探索了通过动态情境适应或角色扮演注入个性，但这些努力也常常以产生不一致的目标角色输出而告终Huang et al. (2025 (https://arxiv.org/html/2605.16996#bib.bib19)); Shanahan et al. (2023 (https://arxiv.org/html/2605.16996#bib.bib38))。至关重要的是，个性评估经常在单个 OCEAN 维度上进行，每个维度固有地具有50%的随机基线Serapio-García et al. (2023 (https://arxiv.org/html/2605.16996#bib.bib37)); Ouyang et al. (2022 (https://arxiv.org/html/2605.16996#bib.bib29))。因此，报告的成功指标可能具有误导性，因为实际任务涉及预测所有五个 OCEAN 维度的二值向量，这与人类评估协议一致。

**基于问卷评估的原理。** 我们将评估建立在标准化的心理问卷上，特别是 IPIP-NEOGoldberg et al. (1999 (https://arxiv.org/html/2605.16996#bib.bib11))。这种方法直接受临床实践启发，利用数十年的验证研究以确保透明性和构念效度Podsakoff et al. (2012 (https://arxiv.org/html/2605.16996#bib.bib32))。虽然将以人为中心的工具应用于LLM存在挑战，包括统计变异性，但它们提供了一个关键且可解释的基准。这一点尤为重要，因为简单的 NLP 技术（如 TF-IDF 结合 SVM）可以通过利用浅层词汇线索在单一特质上达到60-80%的准确率Han et al. (2020 (https://arxiv.org/html/2605.16996#bib.bib15)); Christian et al. (2021 (https://arxiv.org/html/2605.16996#bib.bib3))。问卷通过结构化、多项目的回答迫使模型展示特质一致性，提供了超越关键词匹配的、关于根深蒂固个性的更稳健度量。

## 2. 研究问题

**RQ1：** 微调在多大程度上降低了LLM对人格问卷回答的统计方差？

**RQ2：** 使用无引导文本的有监督或偏好微调能否诱导LLM的个性？

**RQ3：** 安全对齐是否显著影响微调LLM的个性诱导效果？

## 3. 使用的数据集与模型

数据集包含2,467篇随笔，总计190万字，平均每篇约770字。我们选择该数据集是因为其丰富的叙述和较长的文本长度，相比RedditGjurković and Šnajder (2018 (https://arxiv.org/html/2605.16996#bib.bib8))或TwitterGolbeck et al. (2011 (https://arxiv.org/html/2605.16996#bib.bib9))等较短来源（常反映短暂情绪Schwartz et al. (2013 (https://arxiv.org/html/2605.16996#bib.bib36))），能更好地捕捉稳定的个性特质。

表1：随笔数据集中大五特质分布，True 和 False 指每个 OCEAN 维度的二值标签。
表2：各种语言模型的比较
我们评估了五个不同的模型，每个代表不同的规模：两个小模型（LLaMA 3.2–3BDubey et al. (2024 (https://arxiv.org/html/2605.16996#bib.bib5))和Gemma-2–2BTeam et al. (2024 (https://arxiv.org/html/2605.16996#bib.bib40))）、两个中型模型（Gemma–7BTeam et al. (2024 (https://arxiv.org/html/2605.16996#bib.bib40))和LLaMA 3.1–8BDubey et al. (2024 (https://arxiv.org/html/2605.16996#bib.bib5))），以及一个大型商业模型（GPT–3.5111https://platform.openai.com/docs/models/gpt-3-5）。我们将新一代较小架构与较大、较旧的模型进行比较，以衡量它们在个性诱导中的相对性能。我们选择这些模型是因为它们在通用任务上的性能相对接近，从基准分数可以看出来Dubey et al. (2024 (https://arxiv.org/html/2605.16996#bib.bib5)); Team et al. (2024 (https://arxiv.org/html/2605.16996#bib.bib40))。数据集标签见表1 (https://arxiv.org/html/2605.16996#S3.T1)，模型比较见表2 (https://arxiv.org/html/2605.16996#S3.T2)。

对于RQ3，我们比较这些模型的未审查版本与它们对应的指令微调版本。具体来说，我们包含了 LLaMA 3.1–8BDubey et al. (2024 (https://arxiv.org/html/2605.16996#bib.bib5))3、Gemma-2–2BTeam et al. (2024 (https://arxiv.org/html/2605.16996#bib.bib40))3和 LLaMA 3.2–3BDubey et al. (2024 (https://arxiv.org/html/2605.16996#bib.bib5))3的未审查变体。值得注意的是，Gemma-7B 目前在 UGI 排行榜3上缺少对应的未审查版本，因此被排除在此特定比较之外。

33footnotetext:链接：
LLaMA 3.1-8B (https://huggingface.co/Orenguteng/Llama-3.1-8B-Lexi-Uncensored-V2)，
Gemma-2–2B (https://huggingface.co/IlyaGusev/gemma-2-2b-it-abliterated)，
LLaMA 3.2–3B (https://huggingface.co/huihui-ai/Llama-3.2-3B-Instruct-abliterated)，
UGI 排行榜 (https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard)。

## 4. 方法

请参考图注
图3：个性诱导流程

在本研究中，我们采用两阶段方法。我们首先分析微调模型评估中由提示重写引起的统计变异（参见图2 (https://arxiv.org/html/2605.16996#S1.F2)）。在确立提示稳定性后，我们使用图3 (https://arxiv.org/html/2605.16996#S4.F3)所示的流程评估微调策略在个性诱导中的有效性。下一小节概述我们的提示变化协议，该协议借鉴了先前工作Gupta et al. (2024 (https://arxiv.org/html/2605.16996#bib.bib13))，第二小节详细说明我们的微调方法及其原理，以及数据增强、训练和评估的细节。

### 4.1. 评估提示变化的影响

表3：用于LLM评估的问卷集。S1、S2 和 S3 分别使用数值、字符串和字母回答类型。
如前所述，当使用语义相似但词汇不同的查询提示LLM时，它们可能表现出显著的统计变异Gupta et al. (2024 (https://arxiv.org/html/2605.16996#bib.bib13))。这种变异阻碍了模型性能的评估，因为很难判断性能变化是由于真正的学习还是基于提示的变异性。因此，我们采用了与先前研究相同的提示模板（参见表3 (https://arxiv.org/html/2605.16996#S4.T3)），并比较了微调模型和未微调模型之间的变异性；为清晰起见，我们将其命名为集合 S1、S2 和 S3。我们选择其中一个提示变体，即 S2，作为字符串回答，这与此前的工作略有不同（仅在一个提示上不同），因为它会产生更多标记（我们希望这一变化不会过于侵入），并且这可能也是一个重要的变异因素，因为大多数评估方法仅考虑单个标记的回答来计算个性分数。我们使用起始语句“我对该陈述的回答是：”，因为使用此模板很容易提取字符串进行评分，并且实际上语言模型在遵循模板方面相当一致。如果模型未能遵循模板而偏离或回答未采用所提示的格式，我们将该回答视为 NaN，不计入评估。我们实验中的 NaN 率约为≈≈6–10%。

### 4.2. 个性诱导的训练与推理

在确认提示格式的选择在微调后影响可忽略后，我们采用格式 S1 进行所有后续实验。所有模型都经历了两轮有监督微调：(1) 仅使用提示和相应的随笔，以及 (2) 将部分问卷项目和回答纳入提示以生成随笔。第 (2) 步的原理是，模型可能隐式地学习随笔、问卷回答和个性标签之间的关联。在评估期间，首先提示微调后的模型生成一篇随笔，然后依次回答心理量表项目以构建其人格剖面。由于 OpenAI 关于个人数据的审查协议，GPT-3.5 微调期间过滤掉了大约 300 个样本，最终产生的 SFT 数据集约为≈≈2.1k 样本，在所有模型中统一使用。

#### 4.2.1. 有监督微调

模型通过交叉熵损失进行训练。推理时，它一次生成一篇随笔，然后将该随笔作为上下文来预测相应的个性标签。图3 (https://arxiv.org/html/2605.16996#S4.F3)说明了这一流程。

#### 4.2.2. 偏好微调

虽然 SFT 将模型输出对齐到单个“正确”回答，但偏好微调包含成对组装的分层数据，以表示人类偏好Ziegler et al. (2019 (https://arxiv.org/html/2605.16996#bib.bib43)); Rafailov et al. (2024 (https://arxiv.org/html/2605.16996#bib.bib33)); Hong et al. (2024 (https

LLM人格归纳中的评估漂移：我们是否在移动目标？

相似文章

人类心理测量问卷误判LLM行为特征

我们向50个大语言模型发放了45份心理问卷。我们发现的结果并非“个性”。

重新思考LLMs的心理测量学评估：自我报告何时以及为何能预测行为

评估 LLM 在受控实验中作为人类代理的可靠性

大多数大语言模型评估工具是否仍然过于侧重提示词？

提交意见反馈