HumanLLM:通过人类认知模式对大语言模型拟人化的基准测试与改进

arXiv cs.CL 论文

摘要

HumanLLM 提出了一个框架,通过将心理模式建模为相互作用的因果力来对大语言模型的拟人化进行基准测试和改进。该方法从学术文献中构建了244个心理模式和11,359个多模式场景。研究表明,真正的人类对齐需要认知建模而非表面行为模拟,HumanLLM-8B 在多模式动态上的表现超越了 Qwen3-32B 等更大的模型。

arXiv:2601.10198v4 Announce Type: replace 摘要:大语言模型(LLMs)在推理和生成能力上表现出色,成为了先进的人设模拟和角色扮演语言代理(RPLAs)的基础。然而,实现与人类认知和行为模式的真正对齐对这些代理仍是一个关键挑战。我们提出 HumanLLM,一个将心理模式视为相互作用因果力的框架。我们从约12,000篇学术论文中构建了244个模式,并合成了11,359个场景,其中2-5个模式相互强化、冲突或调节,通过多轮对话表达内心想法、行动和对话。我们的双层检查清单评估了单个模式的保真度和新兴的多模式动态,实现了强大的人类对齐(r=0.90),同时揭示了整体指标混淆了模拟准确性与社会期望性。尽管参数少4倍,HumanLLM-8B 在多模式动态上超越了 Qwen3-32B,证明真正的拟人化需要认知建模——不仅要模拟人类的所作所为,还要模拟产生这些行为的心理过程。我们的数据集、代码和模型发布在:https://github.com/YJGoodbye2024/HumanLLM
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/04/20 08:31

# HumanLLM: 通过人类认知模式对大语言模型拟人化的基准测试和改进

来源: https://arxiv.org/html/2601.10198

Xintao Wang1,Jian Yang111脚注标记:1,Weiyuan Li1,Rui Xie1,Jen-tse Huang3,Jun Gao2, Shuai Huang2,Yueping Kang2,Yuanli Guo1,Hongwei Feng1,Yanghua Xiao122脚注标记:2

1复旦大学 2Hello Group 3约翰霍普金斯大学

{xtwang21, 24210240375, 25210980069, 25210980167}@m.fudan.edu.cn {hwfeng, shawyh, guoyuanli}@fudan.edu.cn [email protected],{huang.shuai, kang.yueping}@hellogroup.com,[email protected]

###### 摘要

大语言模型(LLM)在推理和生成方面展现了卓越的能力,成为高级角色模拟和角色扮演语言智能体(RPLA)的基础。然而,实现与人类认知和行为模式的真实对齐仍然是这些智能体面临的关键挑战。我们提出HumanLLM框架,将心理学模式视为相互作用的因果力。我们从约12,000篇学术论文中构建了244个模式,合成了11,359个场景,其中2–5个模式相互强化、冲突或调节,包含表达内心想法、行动和对话的多轮对话。我们的双层级检查表评估了单个模式的保真度和突现的多模式动态,实现了强大的人类对齐(r=0.90),同时揭示了整体指标混淆了模拟准确性与社交期望性。HumanLLM-8B在多模式动态上的表现超过了Qwen3-32B,尽管参数减少了4倍,这表明真实的拟人化需要认知建模——不仅要模拟人类做什么,还要模拟产生这些行为的心理过程。我们的数据集、代码和模型可在以下网址获取:https://github.com/YJGoodbye2024/HumanLLM

---

## 1 引言

随着训练数据规模的快速增长,大语言模型(LLM)在拟人化方面取得了显著进展——模拟人类特征和社会现象。角色扮演语言智能体(RPLA)已从概念框架演进为实际应用,实现了数字克隆、AI伴侣和社会模拟。随着这些应用的发展,LLM的拟人化越来越需要超越浅层行为模仿,走向更深层的认知和情感保真度——我们称之为心理对齐。

然而,现有方法将个性建模为孤立的标签到行为的映射——"外向"映射到"健谈","随和"映射到"合作"——而没有捕捉多个认知模式如何相互作用以产生行为。

我们将模式定义为心理学文献中有据可查的人类认知或行为的规律性——既可以是稳定的人格特质(如"坚定"),也可以是环境触发的社交-认知过程(如"聚光灯效应")。在现实中,健谈的人在激发聚光灯效应时可能会沉默;坚定的个体在从众压力下可能会屈服。人类行为源于多个模式的动态相互作用,而不是任何单一特质的孤立作用。

现有方法——无论是基于提示的、基于微调的还是激活方向调整的——都独立对待特质,导致个性漂移和"个性幻觉",其中模型报告特质但行为不一致。

为了解决这个问题,我们提出HumanLLM框架,将认知模式视为相互作用的因果力。HumanLLM指的是整体框架;我们在特别指代数据工件和微调模型时分别使用"HumanLLM数据集"和"HumanLLM-8B/32B"。

我们的关键见解是:通过让模型接触多个模式相互强化、竞争或冲突的场景,模型可以隐式学习多模式动态,无需架构修改。

遵循勒温的场论,我们将人类认知分解为两个维度:(1)人格特质——稳定的个体特征,以及(2)社交-认知模式——环境触发的机制。我们收集了244个模式(来自Goldberg的大五人格标记的100个人格特质和来自已建立心理学研究的144个社交-认知模式),每个模式都通过系统审查约50篇学术论文而发展。

然后我们构建了11,359个场景,涉及2–6个角色,每个场景包含2–5个可能对齐(如"自我服务偏差"强化"过度自信效应")、冲突(如"坚定"对抗"从众")或条件性相互作用(如"健谈"被"聚光灯效应"抑制)的模式。对于每个场景,我们合成了多轮对话,其中每轮包括内心想法、物理动作和言语表达。

为确保模式表达的保真度并实现系统评估,我们设计了双层级检查表:模式级检查表(每个模式12–15项)捕捉通用行为指标;场景级检查表(每个角色2–6项)在每个多模式配置下指定预期的行为倾向。

我们的训练管道包括对合成对话进行监督微调。我们在域内、域外和混合设置中进行评估,以评估泛化能力,并在包括LifeChoice和CroSS-MR在内的外部基准上进行额外验证。

我们的贡献如下:

(1)我们引入HumanLLM,一个系统地利用心理认知模式增强LLM拟人化的框架,从孤立的特质模拟转向建模人类认知的动态相互作用。

(2)我们构建了一个包含244个模式和11,359个场景的综合数据集,包含多轮、多角色的对话。每个模式以约50篇学术论文为基础(总共超过12,000篇论文),确保了心理学的严谨性和科学有效性。

(3)我们提出了双层级检查表,实现了在模式级和场景级粒度的系统评估,为评估对未见心理模式的泛化提供了原则性框架。

## 2 相关工作

大语言模型的最近进展催化了角色扮演语言智能体(RPLA)的重大进步。早期工作建立了基础架构:具有记忆、规划和反思模块的生成智能体被用来在交互式环境中模拟人类行为,而Character-LLM提出了经验重构来训练具体化历史人物的智能体。随后的工作专注于系统基准测试和增强:ChatHaruh利用基于记忆的对话控制来处理虚拟人物,CoSER从771本书中策划了真实对话,使用"既定境遇表演"方法。

对于角色诱导,已出现三种主要方法:(1)基于提示的方法,通过指令分配人格特质;(2)微调方法,通过在角色特定数据上训练来嵌入角色;以及(3)通过角色向量的激活调整,操纵对应于特定特质的神经表示。

平行的研究线通过心理学构成的透镜评估LLM。心理理论(ToM)基准如ToMBench评估社交认知能力,揭示了GPT-4比人类滞后10%以上,细微的任务修改会导致显著的性能下降。情感智能基准采用心理学基础的框架来评估情感理解和应用,发现LLM与人类之间存在实质性差距。道德推理已通过ETHICS和MoralBench进行了评估,后者基于道德基础理论。

关于认知偏差的研究表明LLM表现出类似人类的非理性,但具有不同的模式。使用验证工具(BFI、MBTI)进行的人格评估表明LLM可以表现出可测量的特质,尽管自我报告的有效性仍然令人怀疑。至关重要的是,最近的工作警告LLM不能可靠地模拟人类心理学,无法在语义等价的场景中泛化。

## 3 HumanLLM数据集

本节介绍HumanLLM数据集,一个基于心理学基础的资源,用于训练和评估拟人化语言模型。我们描述了模式收集、模式数据构建、场景和对话生成,以及双层级检查表设计。表1总结了数据集统计。

### 3.1 模式收集

根据Lewin的人-环境框架中建立的理论基础,我们沿着两个互补的维度编制了模式。

#### 人格特质(个体维度)

我们采用Goldberg的100个单极标记,一个心理测量验证的词汇库,映射到大五维度,每个特质描述符20个(外向性、随和性、尽责性、情绪稳定性、理智)。

#### 社交-认知模式(环境维度)

我们通过系统审查已建立的理论传统来策划情境激活的心理机制,包括认知偏差、社会影响、进化心理学和动机研究。从最初的232个已记录模式池中,我们应用两个过滤标准:(1)充分的经验验证,和(2)与其他模式的非冗余性。这产生了144个社交-认知模式。

### 3.2 模式数据构建

模式数据是心理学模式的结构化表示。我们通过两阶段管道构建模式数据:文献检索,然后是基于LLM的合成。

#### 文献检索

对于244个模式中的每一个,我们使用Gemini Deep Search来识别约50篇相关学术论文。搜索由三个检索维度指导:(1)来自开创性著作的基础定义,(2)来自理论和经验研究的机制解释,以及(3)来自应用研究的现实应用。检索到的参考文献经过手动筛选以删除不相关的条目。通过开放获取API(Semantic Scholar、arXiv、OpenAlex、PubMed、Crossref)获取全文文档;当全文不可用时,摘要会被保留。这个过程产生了跨所有模式约12,000篇论文的语料库。

#### 模式合成

我们使用Gemini 2.5 Pro将每个模式的文献语料库总结为结构化表示。至关重要的是,指示模型仅从提供的50篇论文中提取和总结信息,而不是从其参数知识中生成内容。遵循构念效度框架,每个模式被组织为三个部分:(1)定义——基于权威来源的精确表征;(2)核心机制……

相似文章

评估 LLM 在受控实验中作为人类代理的可靠性

arXiv cs.CL

本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。

赋予角色的大型语言模型表现出类似人类的动机推理

arXiv cs.CL

本文研究了为大语言模型赋予角色是否会引发类似人类的动机推理,发现赋予角色的大语言模型真实性辨别能力最多下降9%,并且以与其诱导的政治身份一致的方式评估科学证据的可能性最多增加90%,而基于提示的去偏见方法基本无效。