超越静态人格:大型语言模型的情境人格引导

arXiv cs.CL 论文

摘要

本文介绍了IRiS,一种无需训练的情境人格引导框架,它通过识别和利用情境依赖的人格神经元,超越了静态人格建模。该方法表明,大型语言模型的行为随情境变化,并提出了基于神经元的识别、检索和加权引导方法,在PersonalityBench和新增的SPBench基准上得到验证。

arXiv:2604.13846v3 Announce Type: replace 摘要:个性化大型语言模型(LLMs)促进了以人为本的应用中更自然、类人的交互。然而,现有的个性化方法受限于有限的可控性和高资源需求。此外,它们对静态人格建模的依赖限制了在不同情境中的适应性。为了解决这些限制,我们首先通过对人格神经元的多视角分析,证明了LLM人格中存在情境依赖性和一致的情境-行为模式。基于这些洞见,我们提出了IRIS,一个无需训练的、基于神经元的识别-检索-引导框架,用于高级情境人格引导。我们的方法包括情境人格神经元识别、情境感知神经元检索和相似度加权引导。我们在PersonalityBench和我们新引入的综合性情境人格基准SPBench上实证验证了我们的框架。实验结果表明,我们的方法超越了性能最佳的基线,展示了IRIS对复杂、未见情境和不同模型架构的泛化性和鲁棒性。
查看原文
查看缓存全文

缓存时间: 2026/04/20 08:32

# 超越静态人格:面向大语言模型的情境人格引导  
来源:https://arxiv.org/html/2604.13846  
Zesheng Wei¹, Mengxiang Li¹†††††††, Zilei Wang¹†††††††, Yang Deng²  
¹中国科学技术大学 ²新加坡管理大学  
\{zswei, mxli02\}@mail.ustc.edu.cn, [email protected] [email protected]  

###### 摘要  
个性化大语言模型(LLM)促进了以人为中心的应用中更自然、更类人的交互。然而,现有的个性化方法受限于可控性不足和资源需求高。此外,它们依赖于静态人格建模,限制了在不同情境中的适应性。为解决这些局限性,我们首先通过多角度分析人格神经元,证明了LLM人格中存在情境依赖性和一致的情境-行为模式。基于这些洞察,我们提出了IRiS,一种无训练、基于神经元的识别-检索-引导框架,用于高级情境人格引导。我们的方法包括情境人格神经元识别、情境感知神经元检索和相似度加权引导。我们在PersonalityBench和我们新引入的综合性情境人格基准SPBench上进行了实证验证。实验结果显示,我们的方法超越了性能最佳的基线,证明了IRiS对复杂、未见情境以及不同模型架构的泛化能力和鲁棒性。  

# 超越静态人格:面向大语言模型的情境人格引导  
Zesheng Wei¹†††††††††, Mengxiang Li¹††††††††††, Zilei Wang¹†††††††††, Yang Deng²  
¹中国科学技术大学 ²新加坡管理大学  
\{zswei, mxli02\}@mail.ustc.edu.cn, [email protected] [email protected]  

## 1 引言  
> “行为是人与环境的函数。”(Lewin,2013 (https://arxiv.org/html/2604.13846#bib.bib29))——库尔特·勒温  

大语言模型(LLM)的进步推动了如角色扮演(Chen等人,2024a (https://arxiv.org/html/2604.13846#bib.bib64);Wang等人,2025c (https://arxiv.org/html/2604.13846#bib.bib2), a (https://arxiv.org/html/2604.13846#bib.bib18))、个性化助手(Deng等人,2024b (https://arxiv.org/html/2604.13846#bib.bib68);Mok等人,2025 (https://arxiv.org/html/2604.13846#bib.bib17))、用户模拟(Zhang等人,2024 (https://arxiv.org/html/2604.13846#bib.bib66);Wu等人,2025 (https://arxiv.org/html/2604.13846#bib.bib65))和社会模拟(Chen等人,2024b (https://arxiv.org/html/2604.13846#bib.bib12);Zhou等人,2024 (https://arxiv.org/html/2604.13846#bib.bib13);Zhang等人,2025 (https://arxiv.org/html/2604.13846#bib.bib67))等广泛的人为中心应用。这些应用要求模型在表达一致人格的同时,能够在不同交互情境中调整行为,这使得人格建模成为LLM个性化的核心挑战。然而,大多数现有方法隐含地假设行为仅由稳定的人格特质决定。这一假设与心理学的一个核心原则相冲突:行为是人与环境两者的函数(Lewin,2013 (https://arxiv.org/html/2604.13846#bib.bib29))。当忽略情境因素时,个性化代理可能表现出表面一致性,却无法在不同情境中做出适当响应。  

参考图注  
图1:情境依赖和全局人格神经元的PCA,附有相近主题名称。不同人格领域之间的距离与同一人格领域内主题之间的距离相当,凸显了情境的关键影响。  

赋予LLM人格的现有方法主要分为基于训练的和无需训练的方法。基于训练的方法依赖于大规模、高质量数据集来使模型与特定个性化偏好对齐(Li等人,2025 (https://arxiv.org/html/2604.13846#bib.bib1)),利用如监督微调(SFT)(Wang等人,2025b (https://arxiv.org/html/2604.13846#bib.bib39);Tan等人,2024b (https://arxiv.org/html/2604.13846#bib.bib14);Li等人,2024b (https://arxiv.org/html/2604.13846#bib.bib15))或直接偏好优化(DPO)(Li等人,2024a (https://arxiv.org/html/2604.13846#bib.bib40))等技术。尽管有效,但这些方法计算代价高(Szep等人,2025 (https://arxiv.org/html/2604.13846#bib.bib38))且事后调整困难(Tseng等人,2024 (https://arxiv.org/html/2604.13846#bib.bib41))。无需训练的方法,包括基于提示的个性化(Jiang等人,2023 (https://arxiv.org/html/2604.13846#bib.bib30);Li等人,2023 (https://arxiv.org/html/2604.13846#bib.bib31))和直接内部引导(Deng等人,2024a (https://arxiv.org/html/2604.13846#bib.bib22);Chen等人,2025 (https://arxiv.org/html/2604.13846#bib.bib32)),提供了更大的灵活性,但存在不稳定、可控性有限和理论基础薄弱的问题。尽管基于提示的方法可以将对话历史作为情境上下文纳入,但它们仅仅将其视为“黑箱”输入。依赖隐式注意力机制进行这种调控缺乏透明度,常常导致不稳定的人格表达。关键的是,基于训练和无需训练的范式都缺乏一个机制框架来显式建模底层的人格-情境交互。  

与现有LLM个性化方法背后的静态假设相反,人格心理学提供了一个完善的人格-情境交互行为解释(Lewin,2013 (https://arxiv.org/html/2604.13846#bib.bib29))。虽然早期特质理论假设跨情境一致性(Newcomb,1929 (https://arxiv.org/html/2604.13846#bib.bib25);Allport,1937 (https://arxiv.org/html/2604.13846#bib.bib24)),但随后的工作表明,仅凭稳定特质不足以解释跨不同情境的行为(Mischel,1968 (https://arxiv.org/html/2604.13846#bib.bib33);Mischel和Peake,1982 (https://arxiv.org/html/2604.13846#bib.bib34))。特别是,认知-情感人格系统(CAPS)理论(Mischel和Shoda,1995 (https://arxiv.org/html/2604.13846#bib.bib3))指出,人类行为在不同情境中各不相同。实证研究进一步表明,不同情境选择性激活认知和情感单元(Mischel等人,2002 (https://arxiv.org/html/2604.13846#bib.bib36)),并且人格一致性通过一致的情境-行为模式来表达(Ayduk和Gyurak,2008 (https://arxiv.org/html/2604.13846#bib.bib35))。迄今为止,这些人格-情境交互机制尚未被系统地研究或集成到基于LLM的个性化中。  

受上述心理学研究的启发,我们首先通过内部神经元的多角度分析,实证检验LLM是否表现出类似人类的情境依赖性和一致的情境-行为人格模式。如图1 (https://arxiv.org/html/2604.13846#S1.F1)所示,我们的初步结果表明,单个领域内情境主题之间的最大PCA距离与不同人格领域之间观察到的距离相当,表明情境变化可以引起人格级别的显著表征偏移。基于这一观察,我们提出了一个无需训练、基于神经元的识别-检索-引导框架,用于情境人格引导,命名为IRiS。该框架首先从一组历史情境中识别情境人格神经元,这些神经元作为指导性先验。给定一个新情境,IRiS估计它与这些历史情境的相似度,检索对应的人格神经元,并应用系数加权引导,以实现精确且情境感知的个性化。在两个人格基准上的全面评估验证了IRiS的最先进性能,展示了其对于未见情境的有效泛化以及在复杂情境中的鲁棒性。此外,大量实验验证了我们的方法在不同模型架构上的适应性。  

总结而言,我们的贡献如下:  
- • 我们实证验证了LLM中人类似的情境依赖性和一致的情境-行为人格模式,开创性地将这些心理机制整合到精准人格引导中。  
- • 我们提出了IRiS框架,一种基于心理学的方法,利用指导性先验进行情境感知检索和引导。  
- • 我们进行了广泛的实验和深入分析,以验证我们框架的有效性,为未来的研究和应用提供了关于情境人格的直观洞察。  

参考图注  
(a) 参考图注 (b) 参考图注 (c)  
图2:实证研究结果:(a) 各情境主题下人格神经元的逐层计数(主题标签省略了“和”) (b) 不同主题在早期、中期和晚期层中神经元比例的变化。(c) LLM人格中情境-行为一致性模式的验证。  

## 2 初步分析  
初步分析旨在研究情境对LLM人格表现的影响,并验证LLM中情境-行为一致性的理论。  

### 2.1 背景  
##### 人格模型  
在本工作中,我们采用广泛验证的大五人格模型(Tupes和Christal,1992 (https://arxiv.org/html/2604.13846#bib.bib20))作为基础人格框架,该模型包含五个领域:开放性(O)、尽责性(C)、外向性(E)、宜人性(A)和神经质(N)。每个领域包含相反的两个方面(例如,E领域中的外向与内向)。  

##### LLM中的神经元  
现代LLM采用自回归Transformer(Vaswani等人,2017 (https://arxiv.org/html/2604.13846#bib.bib6))架构,由L个堆叠的Transformer块组成。先前的工作表明,知识(如人格)存储在每个块的前馈网络(FFN)中的特定神经元中(Dai等人,2022 (https://arxiv.org/html/2604.13846#bib.bib4))。具体来说,在层ll中,给定标记的输入XlX^\{l\},我们有:  
FFN(Xl)=act(XlW1l)W2l\\text\{FFN\}\(X^\{l\}\)=\\text\{act\}\(X^\{l\}W^\{l\}\_\{1\}\)W^\{l\}\_\{2\} (1)  
其中Xl∈RdX^\{l\}\\in\\mathbb\{R\}^\{d\},W1l∈Rd×dhW^\{l\}\_\{1\}\\in\\mathbb\{R\}^\{d\\times d\_\{h\}\},W2l∈Rdh×dW^\{l\}\_\{2\}\\in\\mathbb\{R\}^\{d\_\{h\}\\times d\},actact代表激活函数(例如,ReLU(Agarap,2019 (https://arxiv.org/html/2604.13846#bib.bib10)))。更近期的先进LLM(Grattafiori等人,2024 (https://arxiv.org/html/2604.13846#bib.bib23);Team等人,2024 (https://arxiv.org/html/2604.13846#bib.bib9);Yang等人,2025 (https://arxiv.org/html/2604.13846#bib.bib8))已用GLU(Shazeer,2020 (https://arxiv.org/html/2604.13846#bib.bib11))激活函数替换ReLU非线性,以实现更好的性能:  
FFN’(Xl)=(act(XlW1l)⊙(XlW3l))W2l\\text\{FFN'\}\(X^\{l\}\)=\(\\text\{act\}\(X^\{l\}W^\{l\}\_\{1\}\)\\odot\(X^\{l\}W^\{l\}\_\{3\}\)\)W^\{l\}\_\{2\} (2)  
其中⊙\\odot表示逐元素乘法,W3l∈Rd×dhW^\{l\}\_\{3\}\\in\\mathbb\{R\}^\{d\\times d\_\{h\}\}是门控权重矩阵。在层ll中,第i个神经元可以概念化为对W1lW^\{l\}\_\{1\}的第i列应用线性变换,然后进行非线性激活。神经元的激活值与相应事实的表达正相关。在此上下文中,如果神经元的激活值超过零,则认为该神经元被激活(Nair和Hinton,2010 (https://arxiv.org/html/2604.13846#bib.bib5))。  

##### 神经元识别数据集与情境主题类别  
为识别LLM中的人格神经元,我们采用PersonalityBench中的数据集(Deng等人,2024a (https://arxiv.org/html/2604.13846#bib.bib22)),记作Q\\mathcal\{Q\},其中包含一组多样化的描述性个性化提示和旨在引发人格驱动响应的情境问题。为研究不同情境对LLM人格的影响,这些问题按照UltraChat的分类法(Ding等人,2023 (https://arxiv.org/html/2604.13846#bib.bib21))被分为M=30个不同的主题。更多细节见附录A (https://arxiv.org/html/2604.13846#A1)。  

### 2.2 实证研究  
我们分析的目标是LLM中的情境人格神经元,这些神经元通过测量LLM在情境主题内对比人格提示下神经元的激活差异来识别,详细解释见第3.1节 (https://arxiv.org/html/2604.13846#S3.SS1)。  

#### 2.2.1 情境对LLM人格的影响  
我们分析人格神经元的激活状态和逐层分布,以研究情境对LLM人格的影响。采用Llama-3-8B-Instruct(Grattafiori等人,2024 (https://arxiv.org/html/2604.13846#bib.bib23))和Qwen3-8B(Yang等人,2025 (https://arxiv.org/html/2604.13846#bib.bib8))作为目标LLM进行验证。全面结果见附录C (https://arxiv.org/html/2604.13846#A3)。  

##### 激活层面视角  
我们收集了所有情境人格神经元在不同主题上的激活概率。为进行比较,我们还推导了“全局人格神经元”,忽略主题区分,建立跨情境一致性的基线。然后,我们对特征向量vf∈RL×dhv\_\{f\}\\in\\mathbb\{R\}^\{L\\times d\_\{h\}\}进行主成分分析(PCA),这些向量通过填充特定神经元的激活概率值并将其余神经元的对应位置设为零来构建。如图1 (https://arxiv.org/html/2604.13846#S1.F1)(Qwen)和图5 (https://arxiv.org/html/2604.13846#A3.F5)(Llama)所示,情境人格神经元在不同主题间表现出显著变化。值得注意的是,PCA空间中单个领域内主题之间的最大欧氏距离与不同人格领域之间的距离相当。此外,PCA空间中邻近的点对应语义相似的主题,确认了观察到的变化是系统性的而非噪声。鉴于大五人格领域的独立性(Goldberg,2013 (https://arxiv.org/html/2604.13846#bib.bib26)),这一结果表明,不同情境引起LLM中人格级别的表征偏移。  

参考图注  
图3:IRiS框架概述,包含识别、检索和引导阶段,用于精确的人格引导。  

##### 层面视角  
我们进一步研究了在不同主题下所有层中情境人格神经元的数量和比例的变化。为清晰说明,我们在人格领域C内选择了早期、中期和晚期阶段的八个主题和八个层。如图2(a) (https://arxiv.org/html/2604.13846#S1.F2.sf1)所示,在特定人格领域内,涉及不同情境主题的问题显著影响控制LLM人格的神经元的分布。类似地,如图2(b) (https://arxiv.org/html/2604.13846#S1.F2.sf2)所示,每层情境人格神经元的比例表现出显著差异,在层16中观察到的最大差异为2.23%。

相似文章

赋予角色的大型语言模型表现出类似人类的动机推理

arXiv cs.CL

本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。

超越合作模拟器:为LLM代理的稳健评估生成逼真的用户角色

arXiv cs.AI

提出了Persona Policies(PPol),一种即插即用的控制层,利用LLM驱动的进化程序搜索来生成多样且逼真的用户角色,用于评估LLM代理。相比基线实现了33-62%的适应度提升,逼真度评分达到80.4%,并将代理鲁棒性提升了+17%的任务成功率。

PersonaVLM:长期个性化多模态大语言模型

Hugging Face Daily Papers

PersonaVLM 提出了一种个性化多模态大语言模型框架,通过记忆保留、多轮推理和响应对齐实现长期用户适应,在新推出的 Persona-MME 基准测试中比 GPT-4o 高出 5.2%。

超越静态基准:基于角色模拟合成有害内容以实现鲁棒性评估

arXiv cs.CL

# 超越静态基准:基于角色模拟合成有害内容以实现鲁棒性评估 Source: [https://arxiv.org/html/2604.17020](https://arxiv.org/html/2604.17020) Huije Lee Jisu Shin Hoyun Song Changgeon Ko Jong C\. Park Korea Advanced Institute of Science and Technology \(KAIST\) \{huijelee,jisu\.shin,hysong,pencaty,jongpark\}@kaist\.ac\.kr ###### Abstract 面向有害内容检测的静态基准在可扩展性与多样性方面存在局限,且可能受...

SPS:通过概率挤压引导实现大语言模型强化学习中的更优探索

arXiv cs.CL

研究人员提出了 SPS(概率挤压引导),这是一种结合强化学习与逆强化学习的训练范式,旨在解决大语言模型推理训练中的概率挤压问题。该问题表现为概率质量过度集中于高奖励轨迹,导致探索空间受限及多样本性能(Pass@k)下降。在五个推理基准上的实验表明,该方法有效提升了模型的探索能力与 Pass@k 指标。