BehaviorBench:面向行为科学任务的基础模型基准测试

arXiv cs.CL 论文

摘要

本文介绍了BehaviorBench,一个用于评估基础模型在行为科学任务(包括行为预测、战略决策、主体特征推断和行为知识应用)上表现的综合基准。它还介绍了Be.FM-1.5,一个经过微调的模型,实现了出色的分布对齐,突显了通用模型与行为适应模型之间的差距。

arXiv:2606.24162v1 公告类型:新 摘要:基础模型已越来越多地应用于心理学、社会学和经济学等行为科学领域。虽然这些模型在问卷回答预测和人类受试者实验模拟等个别任务中展现出潜力,但目前尚缺乏对它们在多样化行为科学任务、情境和人群中表现如何的系统性理解。我们提出了BehaviorBench,一个综合基准,用于评估基础模型在四项核心能力上的表现:(1) 行为预测与模拟,(2) 战略决策,(3) 主体特征推断,(4) 行为知识应用。关键的是,BehaviorBench在个体和分布两个层面评估模型输出,不仅捕捉个体层面的准确率,还衡量群体层面的对齐——这是行为有效性的关键要求。利用BehaviorBench中的任务,我们进一步开发了Be.FM-1.5,扩展了基于行为数据微调的行为基础模型Be.FM系列。我们的结果揭示了显著差距:专有通用模型在个体层面预测和知识密集型任务上表现出色,而基于行为数据微调的行为基础模型则在分布对齐上显著更强。值得注意的是,Be.FM-1.5在分布指标上领先,并在个体层面指标上保持竞争力,表明适当的行为适应可以缩小这一差距。我们的结果强调了分布评估的重要性,将BehaviorBench确立为开发和评估行为对齐AI系统的基础,并展示了Be.FM-1.5在广泛行为科学研究中的潜力。我们的BehaviorBench和Be.FM-1.5模型可通过https://umich-foreseer.github.io/behaviorbench/访问。
查看原文
查看缓存全文

缓存时间: 2026/06/24 07:45

# BehaviorBench:面向行为科学任务的基础模型基准测试  
来源:https://arxiv.org/html/2606.24162  

Jin Huang¹ · Yutong Xie¹††footnotemark: · Wanli Song¹ · Xingjian Zhang¹ · Walter Yuan² · Matthew O. Jackson³,⁴ · Qiaozhu Mei¹  

¹密歇根大学  
²MobLab  
³斯坦福大学  
⁴圣塔菲研究所  

¹ {huangjin, yutxie, wanlis, jimmyzxj, qmei}@umich.edu  
² {walter.yuan}@moblab.com  
³,⁴ {jacksonm}@stanford.edu  

###### 摘要  

基础模型越来越多地被应用于行为科学领域,如心理学、社会学和经济学。尽管这些模型在调查响应预测和人类被试实验模拟等单项任务上展现出潜力,但尚缺乏对其在多样化行为科学任务、情境和人群中表现的系统性理解。我们提出 **BehaviorBench**,一个综合基准测试,从四个核心能力评估基础模型:(1) 行为预测与模拟,(2) 战略决策制定,(3) 被试特质推断,以及 (4) 行为学知识应用。关键的是,**BehaviorBench** 在个体和分布两个层面评估模型输出,不仅捕捉每名被试的准确率,还捕捉群体层面的对齐程度——这是行为有效性的必要条件。借助 **BehaviorBench** 中的任务,我们进一步开发了 **Be.FM-1.5**,扩展了在行为数据上微调的行为基础模型 **Be.FM** 系列。我们的结果揭示了显著的差距:通用专有模型在个体层面预测和知识密集型任务上表现优异,而经过行为数据微调的行为基础模型在分布对齐方面显著更强。值得注意的是,**Be.FM-1.5** 在分布指标上领先,同时在个体指标上也具有竞争力,表明适当的行为适配可以弥补差距。我们的结果强调了分布评估的重要性,将 **BehaviorBench** 确立为开发和评估行为对齐 AI 系统的基础,并展示了 **Be.FM-1.5** 在广泛行为科学研究中的潜力。**BehaviorBench** 和 **Be.FM-1.5** 模型可通过 https://umich-foreseer.github.io/behaviorbench/ 获取。

## 1 引言  

参考图标题  
参考图标题  

**图 1:** 基础模型在 **BehaviorBench** 上的聚合评估结果。*左图*:20 个模型在个体与分布层面的平均胜率 (%) 表现。*右图*:BehaviorBench 排行榜上排名前 12 的模型快照,模型根据个体评估和分布评估层面的平均胜率 (Mean WR, %) 分别排名。排行榜中的基础模型按模型类型着色,**Be.FM-1.5** 模型以粗体突出显示。

基础模型已经改变了许多领域。经过海量多样化数据的训练,它们能够跨任务进行适配,并且不仅越来越多地用于预测,还用于推理、模拟和科学发现 [Bommasani 等,2021 (https://arxiv.org/html/2606.24162#bib.bib1);Park 等,2023 (https://arxiv.org/html/2606.24162#bib.bib2);Wang 等,2023 (https://arxiv.org/html/2606.24162#bib.bib3)]。一个具有变革潜力的领域是 **行为科学**:理解、预测和塑造人类行为的科学。行为科学借鉴心理学、社会学、人类学和经济学等多个学科,为理解个体、群体和社会层面的决策动态提供了基础 [Gintis, 2014 (https://arxiv.org/html/2606.24162#bib.bib4)]。其见解为政策制定、医疗保健、教育和商业战略提供信息,凸显了对更先进的 AI 驱动行为分析和干预方法的需求 [Jackson 等,2025 (https://arxiv.org/html/2606.24162#bib.bib5)]。

最近的工作已开始将通用基础模型(包括商业和开源大语言模型)应用于行为科学 [Demszky 等,2023 (https://arxiv.org/html/2606.24162#bib.bib6);Meng, 2024 (https://arxiv.org/html/2606.24162#bib.bib7);Bail, 2024 (https://arxiv.org/html/2606.24162#bib.bib8)]。这些模型在改进调查研究 [Argyle 等,2023 (https://arxiv.org/html/2606.24162#bib.bib9);Grossmann 等,2023 (https://arxiv.org/html/2606.24162#bib.bib10)]、实现自动化内容分析 [Wu 等,2023 (https://arxiv.org/html/2606.24162#bib.bib11);Yang 和 Menczer, 2023 (https://arxiv.org/html/2606.24162#bib.bib12);Gilardi 等,2023 (https://arxiv.org/html/2606.24162#bib.bib13)]、支持基于智能体的建模 [Park 等,2023 (https://arxiv.org/html/2606.24162#bib.bib2), 2024 (https://arxiv.org/html/2606.24162#bib.bib14)] 以及预测人类被试实验结果 [Hewitt 等,2024 (https://arxiv.org/html/2606.24162#bib.bib15);Lippert 等,2024 (https://arxiv.org/html/2606.24162#bib.bib16)] 方面显示出潜力。与此同时,研究人员也在通过微调行为相关数据上的 LLM 来开发行为科学专用基础模型。这些行为基础模型在模拟人类行为预测调查响应和支持行为研究工作流方面展示了改进性能 [Xie 等,2025b (https://arxiv.org/html/2606.24162#bib.bib17);Binz 等,2024 (https://arxiv.org/html/2606.24162#bib.bib18);Kolluri 等,2025 (https://arxiv.org/html/2606.24162#bib.bib19)]。

尽管工作日益增多,但仍然缺乏对不同基础模型在多样化行为科学任务、情境和人群中表现的系统性理解。现有基准通常局限于狭窄的任务族,例如调查响应预测 [Suh 等,2025 (https://arxiv.org/html/2606.24162#bib.bib20);Wang 等,2025 (https://arxiv.org/html/2606.24162#bib.bib21)]。因此,重要的模型能力,如推断人类被试的潜在特质,仍未被测量。更关键的是,大多数基准将每名人类被试视为独立数据点,并使用逐点准确率评分 [Wang 等,2025 (https://arxiv.org/html/2606.24162#bib.bib21);Shapira 等,2024 (https://arxiv.org/html/2606.24162#bib.bib22);Duan 等,2024 (https://arxiv.org/html/2606.24162#bib.bib23);Huang 等,2025 (https://arxiv.org/html/2606.24162#bib.bib24)]。这忽略了人类群体的 **分布** 性质:行为科学通常要求模型不仅能预测个体结果,还能保持群体或群体层面的多样性和异质性 [Kolluri 等,2025 (https://arxiv.org/html/2606.24162#bib.bib19);Xie 等,2025a (https://arxiv.org/html/2606.24162#bib.bib25)]。

为解决这些局限,我们提出了 **BehaviorBench**,一个用于系统评估基础模型在行为科学任务上表现的综合基准。我们的评估围绕一个观察展开:人类行为由多种因素共同塑造,包括行为情境、被试特质和潜在动机 [Xie 等,2025b (https://arxiv.org/html/2606.24162#bib.bib17)]。形式上,这可以表示为条件概率  
p(y | x, c; K),  (1)  
其中 y 表示行为,x 表示人类被试的特征,c 表示定义环境或干预的情境变量,K 表示相关的行为学知识。在行为科学任务中表现出色的基础模型应支持该框架内的多种推理类型。因此,我们沿着四个核心能力评估模型:(1) **行为预测与模拟**(对 y 的前向推理以模仿人类被试),(2) **战略决策制定**(生成 y 以实现指定目标),(3) **被试特质推断**(对 x 的逆向推理),以及 (4) **行为科学知识的应用**(K)到研究问题。

基于多样化的数据集集合,**BehaviorBench** 包含跨越这四种能力的 12 个不同任务。我们在 **个体** 和 **分布** 两个层面评估模型,因此模型与群体行为变异的对齐能力被视为首要目标。

受 **BehaviorBench** 中通用能力和分布对齐目标的启发,我们进一步开发了 **Be.FM-1.5**,扩展了专门为行为科学任务设计的 **Be.FM** [Xie 等,2025b (https://arxiv.org/html/2606.24162#bib.bib17)] 基础模型系列,作为针对性模型开发的可行性测试。**Be.FM-1.5** 在更广泛的任务集上微调开源 LLM,显式覆盖了多样化的能力、行为情境和人类群体。

我们的评估揭示,当前基础模型在行为科学任务中的优势不均衡:没有一个模型家族能主导整个基准。通用专有 LLM 在个体层面预测和知识密集型任务上表现优异,但往往在分布指标上落后。相比之下,行为基础模型在分布对齐方面平均更强(图 1 (https://arxiv.org/html/2606.24162#S1.F1))。在所有评估的模型中,只有 **Be.FM-1.5** 和 Gemini 3.1 Pro 在分布和个体层面指标上都表现出领先性能。值得注意的是,**Be.FM-1.5** 是在 **BehaviorBench** 中未使用的数据上进行微调的。这表明,准确的样本外个体层面预测和忠实的分布对齐可以同时实现,揭示了将基础模型适配到行为科学的一个理想机会。总体而言,我们的结果强调了分布评估的重要性,将 **BehaviorBench** 确立为开发和评估行为对齐 AI 系统的基础,并展示了 **Be.FM-1.5** 在广泛行为科学研究中的潜力。

## 2 BehaviorBench  

我们介绍 **BehaviorBench**。第 2.1 节 (https://arxiv.org/html/2606.24162#S2.SS1) 描述了用于模型评估的基础行为数据。第 2.2 节 (https://arxiv.org/html/2606.24162#S2.SS2) 详细介绍了属于四个能力分类中的任务。第 2.3 节 (https://arxiv.org/html/2606.24162#S2.SS3) 介绍了指标,第 2.4 节 (https://arxiv.org/html/2606.24162#S2.SS4) 将 **BehaviorBench** 与现有基准进行比较。表 1 (https://arxiv.org/html/2606.24162#S2.T1) 总结了 **BehaviorBench** 中的所有任务及其评估集大小和指标。

### 2.1 数据  

捕捉人类行为的广度需要相应广度的数据。遵循 Xie 等(2025b (https://arxiv.org/html/2606.24162#bib.bib17)),**BehaviorBench** 依赖三种行为数据源来执行评估。完整的数据收集和处理流程见附录 A (https://arxiv.org/html/2606.24162#A1)。

1. **实验数据。** 实验记录捕捉了控制环境中多样化被试的行为模式,提供了对个体和群体决策的关键见解。我们选取了来自 MobLab¹ 的一组实验,该平台涵盖了多样化的人类被试群体及其在多种经济博弈中的游戏记录 [Mei 等,2024 (https://arxiv.org/html/2606.24162#bib.bib26)]。**BehaviorBench** 使用一个评估子样本,包含来自 6,279 名不同被试的 12,685 个行为观测。
2. **调查数据。** 调查数据提供了关于人格特质、态度和偏好的自我报告见解。我们使用公开的大五人格测试数据集² 作为数据源。该数据集包含被试的人口统计信息(如种族、年龄、性别)以及他们对 50 个调查问题的回答。答案可以聚合为五个分数,代表他们的人格因素。**BehaviorBench** 包含一个评估子样本,包含来自 1,886 名不同被试的 6,000 个回答。
3. **文献数据。** 行为科学文献记录了关于人类行为的现有理论和科学发现。我们收集了 2025 年发表于 *American Economic Review* 期刊的 104 篇文章以及 *Nature Human Behaviour* 期刊的 140 篇文章的标题和摘要。然后,我们遵循 Zhang 等(2025 (https://arxiv.org/html/2606.24162#bib.bib27))将每对标题-摘要分解为一个结构化的研究工作流,反映研究是如何进行的:情境、关键思想、方法、结果和预期影响。这些数据被纳入 **BehaviorBench**,用于评估基础模型在科学推理和辅助行为科学研究方面的能力。

### 2.2 评估任务  

| 能力 | 任务 | # 评估数据 | 评估指标 |
|------|------|------------|----------|
|      |      |            | 个体 | 分布 |
| 行为预测与模拟 | 单轮博弈行为模拟 | 200/博弈 | – | W |
|  | 多轮博弈行为预测 | 500/博弈 | MAE | W |
|  | 跨情境博弈行为预测 | 750/博弈 | MAE | W |
|  | 根据人口统计预测调查回答 | 1,000 | Acc | W |
|  | 序列调查回答预测 | 1,000 | Acc | W |
|  | 掩码调查回答预测 | 1,000 | Acc | W |
| 战略决策制定 | 战略博弈游戏 | 1,000 | Win (%) | – |
| 被试特质推断 | 根据人口统计预测人格分数 | 1,000 | MAE | W |
|  | 根据其他维度分数预测人格分数 | 1,000 | MAE | W |
|  | 根据人格分数预测年龄 | 1,000 | MAE | W |
| 知识应用 | 科学研究工作流预测 | 1,084 | BLEURT | – |
|  | 经济竞赛问题求解 | 124 | Acc | – |

**表 1:** **BehaviorBench** 中的评估任务,按核心能力分类。# 评估数据:评估集大小。指标:个体层面(个体)和分布层面(分布,“W”代表 Wasserstein 距离)。各任务的数据来源和处理流程详见附录 A (https://arxiv.org/html/2606.24162#A1)。

通过将人类行为的生成建模为 p(y | x, c, K),**BehaviorBench** 用四类行为任务评估基础模型:(1) **行为预测与模拟**(对 y 的前向推理),(2) **战略决策制定**(生成 y 以实现目标),(3) **被试特质推断**(对 x 的逆向推理),以及 (4) **行为科学知识的应用**(K)进行科学推理。形式上,设 Y 为人类行为空间(如实验中的行动和调查回答),X 为人类被试特质空间(如人口统计和人格),C 为情境变量空间(如实验设置和干预)。

#### 2.2.1 行为预测与模拟  

预测和模拟人类行为是行为建模的核心 [Wang 等,2025 (https://arxiv.org/html/2606.24162#bib.bib21);Binz 等,2024 (https://arxiv.org/html/2606.24162#bib.bib18);Kolluri 等,2025 (https://arxiv.org/html/2606.24162#bib.bib19)]。行为预测自然出现在两个层面:个体层面和分布层面。在个体层面,任务是预测给定情境中特定被试的行为。形式上,这可以表示为从 X × Y × C 到 Y 的映射:  
  X × Y × C → Y。  (2)  
具体地,通过基础模型,输入 (x, y′, c) ∈ X × Y × C 被映射到输出 y ∈ Y。

相似文章

面向基础模型综合评估的细粒度基准生成

arXiv cs.LG

一种新的自动化基准生成框架能够实现基础模型的细粒度、全面评估,具有更低的错误率和更丰富的元数据,在机器学习、公司金融和个人金融基准上得到了验证。