评估 LLM 在受控实验中作为人类代理的可靠性
摘要
本论文通过比较 LLM 生成的数据与人类在准确性感知调查中的反应,评估现成 LLM 是否能可靠地模拟受控行为实验中的人类反应。研究发现,虽然 LLM 能捕捉方向性效应和聚合信念更新模式,但它们的效应大小与人类尺度不一致,这有助于澄清合成 LLM 数据何时可以作为行为代理。
查看缓存全文
缓存时间: 2026/04/20 08:30
# 评估LLM作为受控实验中的人类代理人 来源: https://arxiv.org/html/2604.15329 Adnan Hoq 圣母大学 印第安纳州圣母城,美国 ahoq@nd\.edu &Tim Weninger 圣母大学 印第安纳州圣母城,美国 tweninger@nd\.edu ###### 摘要 大语言模型(LLM)越来越多地被用于在行为研究中模拟人类反应,但何时LLM生成的数据支持与人类数据相同的实验推论仍不明确。我们通过直接比较现成的LLM生成的反应与来自关于精准度感知的规范调查实验的人类反应来评估这一点。每个人类观察被转换为结构化提示,模型在没有任务特定训练的情况下生成单一的0-10结果变量;将相同的统计分析应用于人类和合成反应。我们发现LLM复现了在人类中观察到的几个方向性效应,但效应大小和调节模式在模型之间存在差异。因此,现成的LLM在受控条件下捕获了聚合信念更新模式,但不能一致地匹配人类规模的效应,澄清了LLM生成的数据何时可以作为行为代理。 评估LLM作为受控实验中的人类代理人 Adnan HoqUniversity of Notre DameNotre Dame, Indiana, USAahoq@nd\.eduTim WeningerUniversity of Notre DameNotre Dame, Indiana, USAtweninger@nd\.edu ## 1介绍 大语言模型(LLM)越来越多地不仅被用作生成系统,而且被用作模拟人类行为的工具(Messeri and Crockett \(2024 (https://arxiv.org/html/2604.15329#bib.bib23)\); Aher et al\. \(2023 (https://arxiv.org/html/2604.15329#bib.bib2)\); Horton \(2023 (https://arxiv.org/html/2604.15329#bib.bib16)\); Argyle et al\. \(2023 (https://arxiv.org/html/2604.15329#bib.bib3)\); Binz and Schulz \(2023 (https://arxiv.org/html/2604.15329#bib.bib5)\); Kozlowski and Evans \(2025 (https://arxiv.org/html/2604.15329#bib.bib19)\); Park et al\. \(2023 (https://arxiv.org/html/2604.15329#bib.bib26)\); Horton \(2023 (https://arxiv.org/html/2604.15329#bib.bib16)\))。它们被视为"硅样本",可以通过在调查、实验和交互式设置中生成似真反应来代替人类(Messeri and Crockett \(2024 (https://arxiv.org/html/2604.15329#bib.bib23)\); Kozlowski and Evans \(2025 (https://arxiv.org/html/2604.15329#bib.bib19)\); Argyle et al\. \(2023 (https://arxiv.org/html/2604.15329#bib.bib3)\); Cui et al\. \(2024 (https://arxiv.org/html/2604.15329#bib.bib10)\); Li et al\. \(2023a (https://arxiv.org/html/2604.15329#bib.bib21)\); Hullman et al\. \(2025 (https://arxiv.org/html/2604.15329#bib.bib18)\))。在实践中,给模型提供一个简短的文本角色,包括人口统计、政治身份、背景或实验条件,然后它生成该人可能的反应(Hullman et al\. \(2025 (https://arxiv.org/html/2604.15329#bib.bib18)\); Cui et al\. \(2025 (https://arxiv.org/html/2604.15329#bib.bib11)\); Argyle et al\. \(2023 (https://arxiv.org/html/2604.15329#bib.bib3)\); Aher et al\. \(2023 (https://arxiv.org/html/2604.15329#bib.bib2)\); Park et al\. \(2023 (https://arxiv.org/html/2604.15329#bib.bib26)\))。真的能从如此最少的描述中生成现实的人类反应吗?如果可以,人类相似的反应可以按需生成,这对如何衡量意见、评估政策和大规模研究社会行为有影响(Gilardi et al\. \(2023 (https://arxiv.org/html/2604.15329#bib.bib15)\); Törnberg \(2023 (https://arxiv.org/html/2604.15329#bib.bib29)\); Hullman et al\. \(2025 (https://arxiv.org/html/2604.15329#bib.bib18)\))。 这个想法是雄心勃勃的。行为科学长期以来一直在处理高数据收集成本、有限的统计功效、复制危机和累积理论构建的挑战(Collaboration \(2015 (https://arxiv.org/html/2604.15329#bib.bib9)\); Camerer et al\. \(2018 (https://arxiv.org/html/2604.15329#bib.bib7)\); Smaldino and McElreath \(2016 (https://arxiv.org/html/2604.15329#bib.bib28)\); Muthukrishna and Henrich \(2019 (https://arxiv.org/html/2604.15329#bib.bib25)\); Munafò et al\. \(2017 (https://arxiv.org/html/2604.15329#bib.bib24)\))。基于LLM的代理承诺可以缓解这些限制。它们使得能够快速探索设计变体、反事实条件和难以触及的人群(Li et al\. \(2023a (https://arxiv.org/html/2604.15329#bib.bib21),b (https://arxiv.org/html/2604.15329#bib.bib22)\); Argyle et al\. \(2023 (https://arxiv.org/html/2604.15329#bib.bib3)\); Park et al\. \(2023 (https://arxiv.org/html/2604.15329#bib.bib26)\))。它们也使得能够模拟历史背景和精英或稀有子群体(Hua et al\. \(2023 (https://arxiv.org/html/2604.15329#bib.bib17)\); Gao et al\. \(2024 (https://arxiv.org/html/2604.15329#bib.bib14)\); Li et al\. \(2023a (https://arxiv.org/html/2604.15329#bib.bib21)\))。它们可以支持大规模实验而不会导致受访者疲劳(Gilardi et al\. \(2023 (https://arxiv.org/html/2604.15329#bib.bib15)\); Aher et al\. \(2023 (https://arxiv.org/html/2604.15329#bib.bib2)\))。简言之,LLM被用作行为研究的灵活"假设"引擎。 ### LLM行为是否与人类行为匹配? 同时,使用LLM作为行为代理引发了实质性的方法论和哲学辩论(Wang et al\. \(2025 (https://arxiv.org/html/2604.15329#bib.bib30)\))。实证研究表明,LLM生成的反应通常与人类数据中观察到的模式相近,这与它们在大量人类生成文本语料库上的训练一致(Aher et al\. \(2023 (https://arxiv.org/html/2604.15329#bib.bib2)\); Argyle et al\. \(2023 (https://arxiv.org/html/2604.15329#bib.bib3)\); Abdurahman et al\. \(2024 (https://arxiv.org/html/2604.15329#bib.bib1)\); Bisbee et al\. \(2024 (https://arxiv.org/html/2604.15329#bib.bib6)\))。最近的大规模复制工作报告,GPT-4在数十个心理学实验中复现了73%至81%的已发表主效应,以及46%至63%的交互效应(Cui et al\. \(2025 (https://arxiv.org/html/2604.15329#bib.bib11),2024 (https://arxiv.org/html/2604.15329#bib.bib10)\))。语言学和语义研究同样记录了LLM和人类判断之间的强相关性(Chiang and Lee \(2023 (https://arxiv.org/html/2604.15329#bib.bib8)\); Elangovan et al\. \(2024 (https://arxiv.org/html/2604.15329#bib.bib13)\); Bavaresco et al\. \(2025 (https://arxiv.org/html/2604.15329#bib.bib4)\); Dominguez\-Olmedo et al\. \(2024 (https://arxiv.org/html/2604.15329#bib.bib12)\))。 复制结果参差不齐。LLM通常比人类产生更大的效应大小,在原始研究报告无结果发现的地方产生显著结果,并对种族或性别等社会敏感领域表现出敏感性(Cui et al\. \(2025 (https://arxiv.org/html/2604.15329#bib.bib11),2024 (https://arxiv.org/html/2604.15329#bib.bib10)\))。这些差异引发了对效应大小膨胀、系统偏差和过度自信的关注。现有评估通常要么(i)在相关设置中建立方向性相似性,要么(ii)应用使用黄金标准人类数据调整LLM输出的校准程序(Messeri and Crockett \(2024 (https://arxiv.org/html/2604.15329#bib.bib23)\))。 一个中心问题仍然存在:什么时候LLM生成的数据支持与人类数据相同的假设检验?方向性复制和相关性收敛经常被观察到,但在相同统计模型下保持实验推论的情况不确定。换句话说,现成的LLM能否复现受控实验的经验结论,而不是仅仅生成在聚合中看起来似真的反应? ### 我们的方法:在相同分析下的结构一致性 我们测试现成的开源和闭源LLM是否在相同统计分析下复现与人类行为实验相同的假设级结论。我们使用LLM行为模拟的规范实例:受控信息实验中的信念判断。人类参与者在实验操纵的条件下评估政治新闻标题的感知准确度(仅标题对比标题加AI可信度反馈(Pfänder and Altay \(2025 (https://arxiv.org/html/2604.15329#bib.bib27)\); Li and Yang \(2024 (https://arxiv.org/html/2604.15329#bib.bib20)\)))。每个人类观察被转换为包含角色描述、分配条件和标题文本的结构化提示。模型在没有任务特定训练、校准或先前反应历史的情况下生成单一的0-10感知准确度评分。然后我们对人类和合成数据应用相同的统计分析,并比较得出的假设检验。 我们的目标是实验推论中的一致性。有效的代理应该在相同分析下保留在人类中观察到的相同治疗效应、意识形态排序和刺激水平变异。失败应该表现为效应方向、效应大小或调节模式的差异。 ### 假设 我们评估了三个结构化假设,这些假设表征了受控信息实验中的信念判断: H1(政治一致性效应)。感知准确度与参与者隶属关系和标题内容之间的意识形态一致性系统性地变化。 H2(暴露效应)。可信度反馈相对于控制产生统计上显著的感知准确度转变。 H3(标题级异质性)。信念更新在标题中存在差异,表明结构化的刺激水平敏感性而非均匀转变。 这些假设捕获了任务的三个正交属性:意识形态排序、因果治疗反应和刺激水平变异。有效的行为代理必须在相同分析下同时复现全部三个;仅方向性复制是不够的。 ### 简要发现 现成的LLM复现了在人类中观察到的几个方向性效应。意识形态一致性模式通常被保留(H1:部分确认),可信度暴露在所有模型中产生统计上显著的感知准确度转变(H2:确认)。效应大小在系统间变化显著:一些模型近似人类规模的治疗效应,而其他模型表现出夸大的反应性。标题级异质性被部分复现,在不同模型家族间的保真度差异(H3:部分确认)。 因此,LLM在受控条件下复现了聚合行为规律性,但定量一致性依赖于模型。简而言之,LLM生成的数据与人类样本不可互换;结构复现必须逐个假设地建立。通过将评估基于相同的统计规范和效应大小比较,这个框架确定了什么时候现成的LLM在社会和行为研究中充当行为代理。 ## 2方法 我们在相同的实验框架内比较人类判断和LLM生成的反应。人类数据来自关于新闻准确度判断的重复测量实验。参与者在两种条件下评估政治新闻标题的感知准确度。在控制条件下,标题的呈现没有可信度信号。在治疗条件下,标题伴随一个AI生成的可信度标签,表明评估的准确度。 ### 2\.1数据和招募 参与者通过Prolific招募并筛选英语流利度和常规新闻消费。此处报告的分析以控制组(n = 278)和治疗组(n = 244)为基础,产生合并分析样本522名参与者。条件分配使用分块随机化进行,以确保政治隶属关系、性别、种族、年龄、教育和地理位置(城市、郊区、农村)的人口统计代表均衡。 人类数据收集程序的详细信息见附录A(https://arxiv.org/html/2604.15329#A1)。 ### 2\.2人类判断数据 本研究中使用的人类数据来自检查新闻准确度判断的实验。参与者被要求在固定的0-10数字量表上评估政治新闻标题的感知准确度。 该设计为组间设计:每个参与者被随机分配到单一条件。在控制条件下,标题的呈现没有任何伴随的可信度信息。在反馈条件下,标题与AI生成的可信度标签一起显示,表明系统对准确度的评估。参与者评估其分配条件内相同的标题集,但不跨多个条件查看标题。每个标题与社交参与度指标(点赞、分享和评论)一起显示。这些参与度计数是随机生成的,在参与者之间有所不同。 完成任务后,参与者填写了实验后调查。数据集包括反应数据(准确度评分)、交互/日志数据和实验后调查数据。 #### 治疗条件:可信度标签。 反馈条件包括具有有序结构的离散可信度标签,范围从不准确到准确(例如,不准确、未验证、部分准确、准确)。标签有意为分类而非概率性的,以近似数字平台和AI系统上常见的简化可信度线索,并支持有序信念更新而非二元校正的测试。 #### 政治隶属关系。 参与者自我报告政治隶属关系,用作分析中的分组变量。隶属关系被视为信念更新的结构性调节因子而非预测目标。分析检查意识形态差异是否在AI反馈下在人类和模型生成的反应中被保留、放大或减弱。 ### 2\.3LLM代理生成 LLM反应以与人类实验相同的观察粒度生成。每个观察,由参与者角色、标题和实验条件定义,被转换为单一模型提示。控制观察的呈现没有可信度反馈,反馈观察包括参与者显示的相同可信度标签。模型为每个观察输出一个感知准确度评分。 #### 角色编码。 每个提示包括从可用元数据构建的参与者文本描述。核心描述符包括政治隶属关系。在可用的情况下,包括额外的人口统计属性(例如,年龄段、性别、教育水平)。不提供先前反应历史或个体化行为记忆。因此,评分从静态角色描述符、分配条件和标题内容生成。 #### 刺激和信息控制。 标题文本逐字提供给模型。党派倾斜注释被排除在提示之外,所以模型接收与参与者相同的信息。倾斜标签仅用于事后分析和假设检验。 #### 提示结构和解码。 提示遵循指定参与者角色、标题文本和(如果适用)AI可信度标签的标准化模板。模型被指示输出单一整数(介于0和10之间),代表感知标题准确度。不允许额外解释。解码是确定性的(温度= 0),以消除采样变
相似文章
HumanLLM:通过人类认知模式对大语言模型拟人化的基准测试与改进
HumanLLM 提出了一个框架,通过将心理模式建模为相互作用的因果力来对大语言模型的拟人化进行基准测试和改进。该方法从学术文献中构建了244个心理模式和11,359个多模式场景。研究表明,真正的人类对齐需要认知建模而非表面行为模拟,HumanLLM-8B 在多模式动态上的表现超越了 Qwen3-32B 等更大的模型。
评估LLM模拟器作为差分隐私数据生成器
本论文评估基于LLM的模拟器作为差分隐私合成数据生成器的能力,使用PersonaLedger来评估LLM是否能够忠实地复现受DP保护角色的统计分布。虽然在欺诈检测效用方面取得了良好成果(在ε=1时AUC为0.70),但该研究发现了由系统性LLM偏差造成的显著分布漂移,该偏差会覆盖输入统计数据。
LLM智能体可预测社交媒体反应但仍不敌文本分类器:基于1511人12万+人格的仿真准确性基准测试
大规模研究发现,LLM智能体以70.7%的准确率预测个人社交媒体反应,却仍落后于简单TF-IDF分类器,凸显其操控风险与政策模拟价值。
实验还是结果?探测大语言模型中的科学可行性
UMBC 研究人员发现,大语言模型在判断科学主张是否可行时,依据结果数据比依据实验描述更准确;不完整的实验背景反而会降低准确率。
大语言模型能否用 TLA+ 建模实际系统?
Specula 团队的研究人员创建了 SysMoBench 基准测试,用于评估大语言模型能否准确建模实际计算系统的 TLA+ 规范,还是仅仅照本宣科地背诵教材内容。该基准测试涵盖四个阶段共 11 个系统,揭示了当前大语言模型在准确建模系统实现与参考论文方面的系统性差距。