大型语言模型捕捉人类性格的效果如何?
摘要
本文系统评估了关于LLM角色提示的假设,并识别出'角色流形坍缩'现象,即更丰富的角色描述会降低行为多样性和模拟逼真度。研究结果发现,简单的年龄-性别角色通常比更详细的档案表现更好。
arXiv:2606.18263v1 公告类型:cross
摘要:大型语言模型(LLM)越来越多地通过角色提示来模拟人类群体,通常基于以下假设:更丰富的角色描述能提高行为逼真度,相同大小的属性组合具有同等的可模拟性,以及角色定义能跨任务泛化。在本文中,我们形式化了这些假设,并在多种架构、规模和模拟设置下系统评估它们。我们发现了一个基本限制,称之为角色流形坍缩,即越来越表达性的角色规范导致表征和行为多样性的系统性收缩。在多种模型中,增加角色复杂度持续减少潜在空间中角色间的分离,并削弱下游模拟任务中的行为分化。这些效应在多项分析中持续存在,因为更丰富的角色未能保留人类子群体的分歧,性能在相同大小的属性组合间变化,而添加描述细节往往降低而非提高模拟逼真度。令人惊讶的是,简单的年龄-性别角色始终优于跨行业详细指定的理想客户画像(ICP),实现了显著更高的下游预测精度。我们发现坍缩在不同属性间并非均匀。某些组合保持行为稳定并与人类反应保持更强的一致性,形成了我们称为对齐桥的局部区域。总之,我们的结果为理解角色条件模拟的局限性提供了经验和概念基础,强调了需要表征感知的角色构建,而非仅增加角色表达能力。
查看缓存全文
缓存时间: 2026/06/18 05:43
# 大语言模型究竟多擅长捕捉人类个性?来源:https://arxiv.org/html/2606.18263 Aanisha Bhattacharyya∗![[Uncaptioned image]](https://arxiv.org/html/2606.18263v1/figs/adobe-logo.png)![[Uncaptioned image]](https://arxiv.org/html/2606.18263v1/figs/ub-logo.png)![[Uncaptioned image]](https://arxiv.org/html/2606.18263v1/figs/iiitd-logo.png)Yaman Kumar Singla∗![[Uncaptioned image]](https://arxiv.org/html/2606.18263v1/figs/adobe-logo.png)Rajiv Ratn Shah![[Uncaptioned image]](https://arxiv.org/html/2606.18263v1/figs/iiitd-logo.png)Changyou Chen![[Uncaptioned image]](https://arxiv.org/html/2606.18263v1/figs/ub-logo.png)Jitendra Ajmera![[Uncaptioned image]](https://arxiv.org/html/2606.18263v1/figs/adobe-logo.png)![[Uncaptioned image]](https://arxiv.org/html/2606.18263v1/figs/adobe-logo.png)Adobe Media and Data Science Research \(MDSR\)![[Uncaptioned image]](https://arxiv.org/html/2606.18263v1/figs/iiitd-logo.png)IIIT\-Delhi,![[Uncaptioned image]](https://arxiv.org/html/2606.18263v1/figs/ub-logo.png)SUNY at Buffalobehavior\-in\-the\[email protected] (https://arxiv.org/html/2606.18263v1/mailto:[email protected]) ###### 摘要 大语言模型 \(LLMs\) 越来越多地用于通过角色提示模拟人类群体,这通常基于以下假设:更丰富的角色描述能提高行为保真度,规模相似的属性组合具有同等的可模拟性,且角色定义能跨任务泛化。本文形式化这些假设,并在多种架构、规模和模拟设置下对其进行系统评估。我们发现了一个根本性限制,我们称之为**角色流形坍缩**,即角色描述越丰富,表征和行为多样性反而越系统性地收缩。在多个模型中,增加角色复杂性持续降低了潜在空间中角色间的分离度,并削弱了下游模拟任务中的行为差异化。这些效应在多项分析中持续存在:更丰富的角色未能保留人类子群体的分歧;规模相似的属性组合性能表现不一;增加描述细节往往降低而非提升模拟保真度。令人惊讶的是,简单的年龄–性别角色在所有行业中一致优于详细的理想客户画像 \(ICPs\),在下游预测准确率上显著更高。我们发现坍缩并非在所有属性上均匀发生。某些组合保持行为稳定性,并与人类响应保持更强的一致性,形成了我们称为**对齐桥梁**的局部区域。综合而言,我们的结果为理解角色条件模拟的局限性提供了实证和概念基础,强调了需要构建表征感知的角色,而非仅仅增加角色表现力。††∗共同贡献。如有疑问和建议,请联系 [email protected]。## 1 引言 近期文献反映了围绕角色提示和LLM个性化日益高涨的热情,同时也有越来越多的工作探索其在自动化人类研究中的应用\[13 (https://arxiv.org/html/2606.18263#bib.bib13),2 (https://arxiv.org/html/2606.18263#bib.bib2),1 (https://arxiv.org/html/2606.18263#bib.bib1),12 (https://arxiv.org/html/2606.18263#bib.bib12),11 (https://arxiv.org/html/2606.18263#bib.bib11),23 (https://arxiv.org/html/2606.18263#bib.bib23),19 (https://arxiv.org/html/2606.18263#bib.bib19),7 (https://arxiv.org/html/2606.18263#bib.bib7),16 (https://arxiv.org/html/2606.18263#bib.bib16)\]、人类行为模拟\[5 (https://arxiv.org/html/2606.18263#bib.bib5),15 (https://arxiv.org/html/2606.18263#bib.bib15)\]、个性化\[20 (https://arxiv.org/html/2606.18263#bib.bib20),21 (https://arxiv.org/html/2606.18263#bib.bib21)\]、用户建模\[6 (https://arxiv.org/html/2606.18263#bib.bib6),18 (https://arxiv.org/html/2606.18263#bib.bib18),17 (https://arxiv.org/html/2606.18263#bib.bib17)\]、设计构思\[10 (https://arxiv.org/html/2606.18263#bib.bib10),26 (https://arxiv.org/html/2606.18263#bib.bib26)\]以及数据生成\[8 (https://arxiv.org/html/2606.18263#bib.bib8),22 (https://arxiv.org/html/2606.18263#bib.bib22),9 (https://arxiv.org/html/2606.18263#bib.bib9),27 (https://arxiv.org/html/2606.18263#bib.bib27)\]。在这些场景中,角色提示被越来越多地用于构建充当真实用户和参与者代理的合成群体。在这种范式下,模型以人口统计角色为条件,被当作能够大规模生成调查答案的合成受访者。研究人员利用人口统计属性构建人类受访者的“数字孪生”,并提示LLM代其生成响应,从而用合成抽样有效替代传统调查收集\[13 (https://arxiv.org/html/2606.18263#bib.bib13),2 (https://arxiv.org/html/2606.18263#bib.bib2)\]。基于这一前提,LLM已被用于恢复行为经济学和社会心理学中的经典发现\[12 (https://arxiv.org/html/2606.18263#bib.bib12),1 (https://arxiv.org/html/2606.18263#bib.bib1)\]、预测通用社会调查和大五人格量表的回答\[23 (https://arxiv.org/html/2606.18263#bib.bib23)\],以及模拟社会科学实验中的参与者行为——将模型视为代理群体,其聚合行为近似于未见过的科学研究结果\[11 (https://arxiv.org/html/2606.18263#bib.bib11)\]。这些工作共同推进了这样一种主张:社会科学研究中使用的真实样本可以被角色条件的合成受访者大幅取代。除了自动化人类研究之外,类似思想也被应用于下游任务,其中角色条件模型充当多样化用户群体的代理\[10 (https://arxiv.org/html/2606.18263#bib.bib10)\]。角色条件智能体同样被用于市场研究,以获取支付意愿并复制消费者实验\[7 (https://arxiv.org/html/2606.18263#bib.bib7),16 (https://arxiv.org/html/2606.18263#bib.bib16)\];在推荐系统评估中模拟点击、评分和多轮对话以替代真实用户\[6 (https://arxiv.org/html/2606.18263#bib.bib6),18 (https://arxiv.org/html/2606.18263#bib.bib18)\];以及自动A/B测试中,结构化角色智能体浏览真实网页并在模拟群体中聚合结果,以在部署前估计处理效应\[17 (https://arxiv.org/html/2606.18263#bib.bib17)\]。角色条件还被应用于受众定向内容生成,其中LLM撰写的广告在影响用户参与方面达到或超越人类撰写的广告\[20 (https://arxiv.org/html/2606.18263#bib.bib20)\],更广泛地应用于智能体模拟人类行为、偏好和判断的社会模拟\[5 (https://arxiv.org/html/2606.18263#bib.bib5)\]。在这些场景中,角色提示已成为一种常见原语,用于在招募真实参与者缓慢、昂贵或受限时替代人工输入。尽管上述应用利用角色智能体替代人类输入进行下游研究、内容生成和产品评估,角色提示也开始越来越多地影响LLM自身的开发。特别是,诸如 **Nemotron Personas** 数据集\[22 (https://arxiv.org/html/2606.18263#bib.bib22)\] 这样的大规模合成角色数据集将这一范式扩展到训练和评估,通过从人口统计、情境和行为属性(如年龄、国家、教育水平、职业目标、爱好和互联网使用模式)构建角色。这些数据集包含数十万到数百万个基于结构化属性空间(例如,22种角色和情境特征)定义的合成角色,从而实现对群体多样性的系统覆盖以及对不同类型角色的受控训练和评估。除了基于结构化属性的角色,角色还被扩展为表达性的叙述形式,编码从结构化网络知识、在线档案、LLM聊天日志和长期交互历史中推断出的心理特质、偏好、价值观和生活经历。PersonaHUB\[9 (https://arxiv.org/html/2606.18263#bib.bib9)\] 从网络知识构建大规模角色集合,并用于生成多样化的合成角色。DEEPPERSONA\[27 (https://arxiv.org/html/2606.18263#bib.bib27)\] 进一步指出现有角色“浅显且简化”,引入了包含数百个结构化属性和接近1MB文本的长格式档案的角色。基于这些思想,近期系统通过编码数十年关系、信念、动机和经历的传记式长叙述来实例化智能体。这些角色越来越多地用于对话系统和模拟,也用于对齐任务,其中合成群体取代了传统上提供偏好、判断和反馈的人类受访者(RLAIF)。这些发展标志着一个转变:基于LLM的角色不再仅仅在模拟用户,而是越来越多地塑造用于构建LLM本身的数据和反馈信号。然而,随着角色从模拟用户转向塑造模型本身,这一范式背后的假设变得愈发重要。尽管很少明确表述,但几个假设构成了角色模拟设计和解释的基础:**表现力**:一个核心假设是,增加角色的描述丰富性会提高模拟保真度。这促使先前工作中构建高度表达性的角色。例如,DEEPPERSONA\[27 (https://arxiv.org/html/2606.18263#bib.bib27)\] 明确指出现有角色“浅显且简化”,并引入包含丰富心理特质、偏好和生活历史的叙述完整角色,以改进对齐和任务性能。类似地,Nemotron Personas\[22 (https://arxiv.org/html/2606.18263#bib.bib22)\] 围绕属性丰富性设计以实现“行为真实性”,包含结构化人口统计字段以及丰富的叙述成分,如**职业目标**、**技能**和**爱好**。基于长篇社交数据的角色生成方法进一步强调更丰富的条件以改善情感和行为真实性。**属性保真度**:另一个隐含假设是,所有同等规模的属性组合具有同等的可模拟性。具体而言,如果模型能忠实地模拟一个3属性角色(例如,由特定值元组\{教育、收入、种族\}定义),则隐含地假设它也应能同样忠实地模拟所有其他3属性角色(例如,\{收入、政治倾向、种族\})。这一假设出现在大规模角色生成工作中,如PersonaHUB\[9 (https://arxiv.org/html/2606.18263#bib.bib9)\] 从固定属性模式中采样角色,并将其视为跨下游任务可互换的生成器;Nemotron\[22 (https://arxiv.org/html/2606.18263#bib.bib22)\] 使用相同的22种角色和情境属性构建大规模角色池,用于训练、评估和安全测试。**特异性**:一个相关的假设是,向角色添加更多属性会提高模拟保真度。具体而言,如果模型能忠实地模拟一个由 \(N\) 个属性定义的角色,添加一个额外属性应提供更具体的行为基础,而非降低性能。这一假设在先前工作中推动了渐进式角色丰富,如DEEPPERSONA\[27 (https://arxiv.org/html/2606.18263#bib.bib27)\] 使用包含数百个属性的结构化分类法逐步扩展角色,而Nemotron\[22 (https://arxiv.org/html/2606.18263#bib.bib22)\] 明确偏好包含22个人口统计、情境和行为字段的更丰富角色。其他角色生成框架同样依赖多阶段属性扩展,前提是更大的特异性导致更忠实的模拟。**任务泛化**:最后,角色定义通常被假设为跨任务泛化。PersonaHub\[9 (https://arxiv.org/html/2606.18263#bib.bib9)\] 在诸如数学推理、问答和生成等多样任务中复用相同角色;Nemotron\[22 (https://arxiv.org/html/2606.18263#bib.bib22)\] 将固定角色应用于训练、评估和安全测试。调查模拟工作进一步假设,基于人口统计属性的角色能跨意见预测、叙事生成和行为任务等领域泛化。总体而言,文献反映了一种普遍观点:更丰富、更大、更结构化的角色能导致更忠实、更可泛化的人类行为模拟。随着角色提示越来越多地部署在自动化人类研究、设计构思和A/B测试等场景中,其输出可能影响科学结论以及呈现给用户的内容。然而,尽管整个流水线都建立在这些假设之上,它们却很少得到系统验证。这引出了一个关键问题:关于角色保真度的假设是否真的成立?进一步而言,当角色在人类眼中显得合理时,仍不清楚LLM是否以一致且行为忠实的方式有意义地解释并遵循这些角色。我们进行了两项互补分析,以评估角色模拟背后的假设在实践中是否成立。首先,我们通过分析角色嵌入在逐步添加属性时的演化来研究角色的潜在表征。这使我们能够直接测试关于属性丰富化和特异性的假设——如果更丰富的角色提供更忠实的行为基础,那么随着引入额外属性,角色表征应变得更加独特且行为上可分离。其次,我们通过下游模拟任务进行实证验证,评估角色条件智能体是否保留了人类在不同人口统计子群体中的观点差异,以及这些表征是否转化为跨任务的高保真模拟。对于第一个实验,我们通过层次化属性组合构建角色,范围从最小的双属性规范(如年龄、性别)到逐渐丰富的画像(包含教育、决策风格和背景等属性)。然后,我们提取角色条件的隐藏状态嵌入,这些嵌入针对主观和偏好导向的提示(详细内容见表LABEL:tab:persona_prompt_examples)。我们将**角色距离**定义为在属性丰富化每个层级上角色嵌入之间的平均成对欧氏距离,并将其用作角色间行为分离度的代理。在标准假设下,更丰富的角色编码更具体、更独特的行为信息,添加新属性应要么增加角色表征之间的分离度,要么保持现有差异不变。直观上,如果两个角色已经沿着年龄和性别等属性存在差异,引入额外的信息(如教育、决策风格或背景)应进一步细化这些差异,而不是将它们坍缩成更相似的表征。与这一预期相反,我们观察到随着引入额外属性,角色流形发生了系统性的收缩。在Qwen-72B-Vision-Instruct上,平均角色距离从
相似文章
赋予角色的大型语言模型表现出类似人类的动机推理
本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。
城市感知中多模态大语言模型代理生成解释的角色效应分析
本文研究了角色提示如何影响多模态大语言模型在城市感知中生成的语言,发现不同角色的描述趋于一致,而解释则随着角色属性系统性地变化。
大型语言模型有多像人类?一个关注语域的语言评估框架
本文提出了一种关注语域的语言评估框架,通过使用最大均值差异(MMD)比较人类与LLM生成文本中67个词汇语法特征的分布,来评估大型语言模型(LLM)的人类相似度。在七个经过指令微调的开源模型和五个语域上的实验表明,没有模型能完美匹配人类基线,且与人类语言的接近程度因语域而异,而非模型规模。
超越合作模拟器:为LLM代理的稳健评估生成逼真的用户角色
提出了Persona Policies(PPol),一种即插即用的控制层,利用LLM驱动的进化程序搜索来生成多样且逼真的用户角色,用于评估LLM代理。相比基线实现了33-62%的适应度提升,逼真度评分达到80.4%,并将代理鲁棒性提升了+17%的任务成功率。
审视LLM中类人行为:模型行为、用户因素和系统提示的多维度分析
本文对LLM中的类人行为进行了多维度分析,研究了来自四个模型的21,000个对话中的普遍性、影响和可控性,发现行为因模型和用户因素而异,并对负责任的设计具有启示意义。