OdysSim：构建人类行为模拟的基础模型

arXiv cs.CL 2026/06/15 04:00 论文
human-simulation foundation-model behavior-modeling llm multi-task open-source training-recipe
摘要
OdysSim对人类行为模拟的行为基础模型进行了系统研究，引入了Soul分类法、一个包含2140万次交互的语料库以及一种训练方法，该方法在23个基准任务中的8个上达到了最先进水平，同时生成更类人的输出。
arXiv:2606.14199v1 Announce Type: new 摘要：大型语言模型越来越多地被部署为人类模拟器，用于交互式评估和社会模拟。然而，以有帮助性为导向的后训练使它们趋同于一种同质化、过度顺从的助手形态，造成了行为模拟与现实（Sim2Real）之间的差距。我们提出了OdysSim，这是迄今为止最大规模的行为基础模型（即经过训练以模拟人类行为的模型）的公开系统性研究。我们提出了SOUL，一个包含五个能力轴（CONV、SS、COG、ROLE、EVAL）的分类体系，将62个数据集和23个基准任务统一在一个框架下。具体来说，我们整理了OdysSim语料库（2140万次交互，100亿个token，并添加了逆向生成的社会背景），构建了SOUL-Index基准，并开发了一种结合中期训练、任务特定强化学习和专家蒸馏的端到端训练方法。由此产生的开源8B OSim模型在23个任务中的8个上排名第一或并列第一，这一数量超过了任何一个单独的前沿模型，其中在对话和社交任务上提升最为显著。其输出在长度、格式和用词上也更接近人类，并且能够零样本迁移到τ-bench上的分布外用户模拟，在反应对齐方面几乎与真实用户相当（93.2对93.5）。我们进一步表明，以LLM为评判的强化学习会引发奖励破解模式，而我们的检测器可以在后训练中缓解这些模式。总之，我们的研究结果表明，行为基础模型需要重新思考LLM的训练范式。我们发布了所有相关成果以支持未来的研究。
查看原文
查看缓存全文
缓存时间: 2026/06/15 08:58
# OdysSim：构建人类行为模拟的基础模型  
来源：https://arxiv.org/html/2606.14199  

徐慧舟¹，孙伟伟¹*，杜伟华¹，刘佳瑞¹，孙昊嘉¹，马倩诺¹，吴桐爽¹，杨一鸣¹，马腾·萨普¹  
¹卡内基梅隆大学，语言技术研究所  
{xuhuiz, weiweis}@andrew.cmu.edu  

代码 (https://github.com/sunnweiwei/OdysSim)  
![[未标题图片]](https://arxiv.org/html/2606.14199v1/logo/huggingface.png)  
模型 (https://huggingface.co/collections/cmu-lti/odyssim)  
![[未标题图片]](https://arxiv.org/html/2606.14199v1/logo/huggingface.png)  
中期训练数据 (https://huggingface.co/datasets/cmu-lti/osim-mid-training)  
![[未标题图片]](https://arxiv.org/html/2606.14199v1/logo/huggingface.png)  
后训练数据 (https://huggingface.co/datasets/cmu-lti/osim-post-training)  

###### 摘要  
大型语言模型越来越多地被部署为人类模拟器，用于交互式评估和社会模拟。然而，以有用性为导向的后训练将它们拉向一种同质化、过度迎合的助手风格，造成了行为上的 Sim2Real 差距。我们提出了 **O**dysSim，这是迄今为止对**行为基础模型**——即经过大规模训练以模拟人类行为的模型——进行的最大规模开放式系统性研究。我们提出了 **Soul**，一个包含五个能力轴（CONV、SS、COG、ROLE、EVAL）的分类体系，它将 62 个数据集和 23 个基准任务统一在一个框架下。具体来说，我们整理了 **O**dysSim 语料库（2140 万次交互，100 亿个 token，并配有反向生成的社会情境），构建了 **Soul**-Index 基准，并开发了一套结合了中期训练、任务特定强化学习和专家蒸馏的端到端训练方案。由此产生的开放 8B **O**sim 模型在 23 个任务中的 8 个上排名第一或并列第一，按此数量计表现优于任何单一前沿模型，在对话和社会任务上增益最为显著。其输出在长度、格式和措辞上也更接近人类，并且能零样本迁移到 **τ**-bench 上的分布外用户模拟，在反应一致性上几乎与真实用户持平（93.2 vs. 93.5）。我们进一步展示了以 LLM 作为评判的强化学习会引发奖励破解模式，而我们设计的检测器可以在后训练过程中缓解这一问题。综合来看，我们的发现表明，构建行为基础模型需要重新思考 LLM 的训练范式。我们发布所有构件以支持未来的研究。  
参见说明图 1：人类模拟任务的基准结果。  

## 1 引言  
模拟人类行为正成为 AI 系统的一项关键能力。现实的**行为模型**在以下场景中不可或缺：智能体评估中的用户模拟（Yao 等，2024 (https://arxiv.org/html/2606.14199#bib.bib59)）、临床训练中的患者模拟（Kyung 等，2025 (https://arxiv.org/html/2606.14199#bib.bib24)）、教育技术中的学习者模拟（Ross & Andreas，2025a (https://arxiv.org/html/2606.14199#bib.bib40)）以及社会科学中的人格模拟（Park 等，2023 (https://arxiv.org/html/2606.14199#bib.bib37)；Argyle 等，2023 (https://arxiv.org/html/2606.14199#bib.bib1)）。然而，当前的大型语言模型（LLM）存在明显不足：它们存在系统性偏差、风格单一且过度迎合，表现出所谓的“Sim2Real 差距”（Zhou 等，2026a (https://arxiv.org/html/2606.14199#bib.bib67)），而仅靠提示工程并不足以解决（尤其是对于人类自然表现出的“不良”行为；Li 等，2025b (https://arxiv.org/html/2606.14199#bib.bib29)）。此问题的根源在于 LLM 训练管线：(i) 标准预训练摄入大量互联网文本，其中未必包含真实的人类行为；(ii) 以有用性为导向的后训练（如 RLHF；Ouyang 等，2022 (https://arxiv.org/html/2606.14199#bib.bib36)）主动将模型拉向助手的语言风格；(iii) 评估协议通常奖励任务成功和指令遵循，而忽视行为真实性、多样性和社会保真度。缩小这一差距需要**端到端地重新思考整个管线**：**我们衡量什么**、**模型从什么数据中学习**以及**模型如何被训练**。  

我们提出了 **O**dysSim，这是迄今为止构建行为基础模型¹ 的最大规模开放式努力。它包括一个包含 23 个任务的基准、一个包含 2140 万次交互（100 亿 token）的中期训练语料库（来自 62 个公开来源），以及一个端到端的强化学习方案。此外，如图 2 (https://arxiv.org/html/2606.14199#S1.F2) 所示，我们设计了 **Soul**（模拟人类行为框架），该框架定义了五个能力轴（CONV、SS、COG、ROLE、EVAL），用以联合索引 **O**dysSim 语料库和 **Soul**-Index 评估套件（第 3 节 (https://arxiv.org/html/2606.14199#S3.SS0.SSS0.Px3)）。  

行为模拟本质上是具有情境性的：要模拟人类的回应，模型不仅需要基于输入话语或情境，还需要考虑说话者是谁、他们扮演什么角色，以及塑造交互的社会意图。因此，我们将行为模拟形式化为：在给定交互情境**和**社会情境规范（如角色档案、角色扮演或目标）的条件下生成回应。这带来了一个实际的数据挑战：许多用于中期训练的原始来源，例如 WildChat 条目（Zhao 等，2024 (https://arxiv.org/html/2606.14199#bib.bib62)）和 ConvoKit 对话线程（Chang 等，2020 (https://arxiv.org/html/2606.14199#bib.bib5)），虽然包含丰富的对话，但缺乏明确的说话者情境，使得仅从文本中难以推断社会动态。我们通过为每个对话配备反向生成的社会情境（包括角色档案和交互目标）来解决这个问题。我们进一步证明，在训练中提供社会情境支持对于学习模拟人类行为至关重要。  

我们研究的核心是：在 **O**dysSim 语料库上对 Qwen3 基础模型进行中期训练，以创建 **O**sim-Mid。在此基础上，我们进一步进行任务特定的强化学习，为 **Soul**-Index 中的每个任务训练一个专家模型：当任务具有可验证的奖励时使用 GRPO，当任务由 LLM 评判（返回标量奖励和文本评论）时使用带言语反馈的强化学习（Sun 等，2026 (https://arxiv.org/html/2606.14199#bib.bib49)；Song 等，2026 (https://arxiv.org/html/2606.14199#bib.bib47)）。最后，我们使用专家蒸馏将得到的任务特定专家模型合并成一个可部署的单一模型。这两个阶段是互补的：中期训练提供了对行为模式的感知初始化（大规模下人类行为“是什么样”）；任务特定的强化学习在正确的奖励信号下增加了精确性（每个任务上“如何表现”）。  

¹ 本文中，我们始终在自然语言处理意义上使用“行为基础模型”：指经过大规模训练以在语言交互中模拟人类行为的模型。这与机器人领域使用的具身控制概念不同，在机器人学中，“行为基础模型”指的是类人机器人的全身运动控制策略（Tirinzoni 等，2024 (https://arxiv.org/html/2606.14199#bib.bib50)；Zeng 等，2025 (https://arxiv.org/html/2606.14199#bib.bib61)）。  

参见说明图 2：**O**dysSim 方案的概览。我们迭代式地收集和整理 **O**dysSim 语料库，构建 **Soul** 框架，并构建 **Soul**-Index 作为评估套件。我们首先将 Qwen3 基础检查点中期训练为 **O**sim-Mid。然后进行任务特定的强化学习，为每个 **Soul**-Index 任务训练一个专家模型。最后通过专家蒸馏将这些专家模型合并成最终的 **O**sim 模型。  

综合这一方案——中期训练、任务特定强化学习、专家蒸馏——我们得到了 **O**sim-8B，它在 **Soul**-Index 上领先，并且在更多任务（23 个中的 8 个）上达到最佳或并列最佳，优于任何单一前沿模型。其改进集中在交互式、具有社会情境的任务上，这些任务正是通用后训练所忽视的，模型生成了更“类人”的行为，例如更短的句子和更少的助手式短语。这些增益也超越了聊天场景：在 **τ**-USI（一个针对工具使用智能体的分布外用户模拟评估）上，**O**sim-8B 在所有评估的模拟器中实现了最强的反应一致性，几乎与真实用户持平（React93.2 vs. 93.5），优于任何前沿模型。我们的消融实验表明，两个阶段在本质上以不同方式贡献：中期训练本身使得输出在长度、格式和措辞上转向人类语言风格，将 Qwen3-8B-Base 在 **Soul**-Index 上的得分从 26.9 提升至 41.1；任务特定的强化学习则在角色扮演（ROLE）和对话（CONV）任务上带来了最大的增益。综合来看，这些结果闭合了我们核心主张的循环：构建行为基础模型需要对齐**我们衡量什么**（Soul-Index）、**模型从什么数据中学习**（**O**dysSim 语料库）以及**训练目标奖励什么**（应以行为真实性为导向，而非仅任务成功）。  

#### 贡献。  
(1) **Soul 框架**。一套由五个行为能力轴组成的统一体系，同时指导中期训练、后训练和评估，并包含 **Soul**-Index——据我们所知，这是最全面的人类行为模拟开放式评估。  
(2) **O**dysSim 语料库。一个包含 2140 万次交互（约 100 亿 token）的行为中期训练语料库，来自 62 个公开来源，统一为通用的对话格式，并配备了一个**逆向工程管线**，为每个对话反向生成社会情境（例如角色档案、交互目标）。  
(3) **端到端方案**。在 **O**dysSim 上进行中期训练，在 **Soul**-Index 的每个任务上进行任务特定的强化学习（GRPO 和 RLVF），并通过专家蒸馏得到一个最终模型，该模型在基准内行为模拟和为工具使用智能体进行的零样本用户模拟方面都有提升。  

## 2 相关工作  
#### 评估行为模拟。  
现有行为模拟基准侧重于人类行为的特定方面，每个基准针对狭窄的能力或任务格式：心理理论（Kim 等，2023 (https://arxiv.org/html/2606.14199#bib.bib21)；Le 等，2019 (https://arxiv.org/html/2606.14199#bib.bib26)）、社会交互（Zhou 等，2024b (https://arxiv.org/html/2606.14199#bib.bib66)）、带人格的角色扮演（Wang 等，2026 (https://arxiv.org/html/2606.14199#bib.bib53)；Kirk 等，2024 (https://arxiv.org/html/2606.14199#bib.bib22)；Li 等，2025a (https://arxiv.org/html/2606.14199#bib.bib28)）、社会和认知实验（Kolluri 等，2025 (https://arxiv.org/html/2606.14199#bib.bib23)；Binz 等，2025 (https://arxiv.org/html/2606.14199#bib.bib4)），或更近期的、与 AI 智能体交互的用户行为模拟（Dou 等，2025 (https://arxiv.org/html/2606.14199#bib.bib11)；Zhou 等，2026a (https://arxiv.org/html/2606.14199#bib.bib67)）。这种碎片化使得很难追踪某个方面（比如心理理论准确性）的进展是否意味着不同能力（比如角色扮演保真度）的进展，也难以比较针对不同能力的建模方法。  

#### 训练行为基础模型。  
先前训练 LLM 用于人类行为模拟的努力在方法论和规模上有所不同，但每个都局限于狭窄的行为领域。许多方法通过 SFT 或 RL 调整通用后训练的 LLM：Sotopia-π（Wang 等，2024 (https://arxiv.org/html/2606.14199#bib.bib52)）克隆了专家社会交互轨迹；Sotopia-RL（Yu 等，2025 (https://arxiv.org/html/2606.14199#bib.bib60)）增加了话语层面的多维奖励；Omar（Jiang 等，2026 (https://arxiv.org/html/2606.14199#bib.bib19)）通过多智能体自博弈进行训练；UserLM（Naous 等，2026 (https://arxiv.org/html/2606.14199#bib.bib34)）在 WildChat（Zhao 等，2024 (https://arxiv.org/html/2606.14199#bib.bib62)）对话的用户端进行微调。另一些则构建了新的语料库但停留在单一领域：Centaur（Binz 等，2025 (https://arxiv.org/html/2606.14199#bib.bib4)）在 Psych-101（来自 160 个认知心理学实验的 1000 万次选择）上微调；Be.FM（Xie 等，2025 (https://arxiv.org/html/2606.14199#bib.bib57)）针对四种行为科学能力；Socrates（Kolluri 等，2025 (https://arxiv.org/html/2606.14199#bib.bib23)）在 SocSci210（290 万条社会科学响应）上微调。虽然 Sun 等（2026 (https://arxiv.org/html/2606.14199#bib.bib49)）和 Wu 等（2026b (https://arxiv.org/html/2606.14199#bib.bib56)）研究了不同领域的任务和能力，但两者都从已经优化为有帮助助手的指令微调模型初始化，这有风险抑制忠实模拟人类行为所需的行为多样性。  

#### 中期训练与 LLM 评判反馈的强化学习。  
中期训练在后训练之前将预训练模型适配到目标分布（Gururangan 等，2020 (https://arxiv.org/html/2606.14199#bib.bib14)；Liu 等，2026 (https://arxiv.org/html/2606.14199#bib.bib31)；Mo 等，2025 (https://arxiv.org/html/2606.14199#bib.bib33)），但先前工作主要研究代码（Rozière 等，2024 (https://arxiv.org/html/2606.14199#bib.bib42)）和数学等领域，这些领域的转变主要是词汇、句法或任务技能驱动的。我们的设置不同：人类行为模拟需要在人格、意图、语言风格和交互风格上具有社会情境的转变，这在中期训练中尚未被系统研究过。对于开放式行为任务，先前工作使用 LLM 评判，有时结合文本反馈来优化生成（Zheng 等，2023 (https://arxiv.org/html/2606.14199#bib.bib63)；Verga 等，2024 (https://arxiv.org/html/2606.14199#bib.bib51)；Sun 等，2026 (https://arxiv.org/html/2606.14199#bib.bib49)；Song 等，2026 (https://arxiv.org/html/2606.14199#bib.bib47)）。我们在此基础上进行构建，但聚焦于行为保真度而非有用性或任务成功。  

## 3 Soul 框架  
参见说明图 3：五个 Soul 轴。每一条带列出贡献到该轴的 **O**dysSim 语料库数据集（左侧，62 个来源，2140 万次交互，约 100 亿 token）以及该轴的 **Soul**-Index 评估任务（右侧，23 个任务）。同时出现在两侧的来源只在评估侧列出一次；“…” 表示截断的语料库药片。  
CONV：话语和交互动态；SS：社会技能；COG：认知/心理状态推理；ROLE：人格、角色扮演和教学；EVAL：判断和偏好。  

我们首先介绍 **Soul**（模拟人类行为框架），这是一个用于 (i) 对 **O**dysSim 中期训练语料库进行分类和 (ii) 在 **Soul**-Index 评估套件上聚合行为保真度分数的框架。  
图 3 (https://arxiv.org/html/2606.14199#S3.F3) 展示了五个 Soul 轴以及每个轴贡献的数据集和任务。详情请参阅附录 E (https://arxiv.org/html/2606.14199#A5)。  

#### Soul 轴  
我们通过两阶段的分类构建过程来定义 Soul 轴。  
我们首先贪婪地收集所有公开数据集中与模拟人类行为能力相关的，例如与 AI 智能体交互的用户、Reddit 对话、电影对话、在线购物、心理实验等。  
* (i) 自底向上：* 我们审查每个候选数据集，并根据其交互所捕捉的主要社会或认知现象（例如说服、情感支持、错误信念推理、带人格的角色扮演）进行聚类。  
* (ii) 自顶向下：* 我们将这些涌现的聚类锚定在认知和社会心理学文献中广泛研究的核心能力上，最终形成五个轴：
  * **CONV（对话）**：包括对话结构、轮流、开放性/封闭性提问、反馈、话语风格和对话管理。涵盖的公开数据集包括：ConvoKit（Chang 等，2020）、WildChat（Zhao 等，2024）等。
  * **SS（社会技能）**：情绪识别、移情、说服、谈判、情感支持、社交礼仪和冲突解决。涵盖的公开数据集包括：EmotionLines（Hsu 等，2018）、Persuasion for Good（Wang 等，2019）等。
  * **COG（认知/心理状态推理）**：信念、欲望、意图推理（心理理论）、规划、目标导向行为、错误信念、反事实推理。涵盖的公开数据集包括：SocialChem-101（Forbes 等，2020）、ToMi（Le 等，2019）等。
  * **ROLE（人格、角色扮演和教学）**：多面人物角色扮演、单一角色扮演、教程/教学交互。涵盖的公开数据集包括：Sotopia（Zhou 等，2024b）、Character.ai Dialogues 等。
  * **EVAL（判断和偏好）**：价值和道德判断、偏好选择、伦理推理、审美判断、合规性。涵盖的公开数据集包括：ETHICS（Hendrycks 等，2020）、Persona-Chat（Zhang 等，2018）等。  

（由于篇幅限制，我们在此处简要罗列，详细的数据集列表和每个轴下的任务描述将在附录中给出。）  

#### Soul-Index 基准  
为了系统评估行为基础模型在所有五个轴上的表现，我们构建了 Soul-Index 基准，包含 23 个任务（详见图 3 右半部分）。每个任务都基于一个现有的高质量评估数据，我们将其重新格式化为统一的输入输出模板，并尽可能保留原有的黄金标签或人工评估流程。该基准覆盖了从基本的对话风格模拟到高级的社会认知推理和角色扮演等多个维度。  

## 4 OdysSim 语料库  
为了支持大规模的行为模拟训练，我们整理了 OdysSim 语料库。该语料库由 21.4M 次交互（约 100 亿 token）组成，来自 62 个公开可用的数据集，涵盖上述所有五个 Soul 轴。所有数据都被归一化为一个统一的对话交互格式，包括对话历史和当前轮次输出。  

更重要的是，我们引入了一个**逆向工程管线**，为每个对话片段反向生成社会情境，包括：  
- **角色档案（Character Profile）**：说话者的年龄段、性别、职业、语气、动机等。  
- **交互目标（Interaction Goal）**：说话者在此对话中的主要目标（如获取信息、说服、宣泄情感）。  
- **社交关系（Social Relation）**：对话双方的社会距离和权力不对等。  

我们通过提示词工程和少量人工审核来保证生成的社会情境的合理性和多样性。这些额外的情境信息在训练过程中作为可选上下文提供给模型，以增强其对行为模拟的细粒度控制能力。  

## 5 训练方案  
我们采用端到端的训练方案，由三个主要阶段组成：中期训练、任务特定强化学习、以及专家蒸馏。  

### 5.1 中期训练：Osim-Mid  
我们从 Qwen3-8B 基础模型开始，直接在 OdysSim 语料库上进行语言模型训练。我们采用标准的自回归语言建模目标，同时为了保留社会情境的灵活性，我们设计了一种特殊的输入格式：  
当有可用的社会情境（角色档案、目标、关系）时，我们在对话历史之前加入这些信息，并使用分隔符区分。模型被训练为在给定这些情境（如果有）和对话历史的条件下预测下一个说话者的响应。这相当于一种条件语言模型训练。  

中期训练持续 1 个 epoch，优化器采用 AdamW，学习率 1e-5，批量大小为 4M tokens。该阶段检查点称为 Osim-Mid。  

### 5.2 任务特定强化学习  
从 Osim-Mid 初始化，我们在 Soul-Index 中的 23 个任务上分别进行强化学习。我们设计了两种强化学习方法，取决于任务是否具有可计算的奖励：  
- **GRPO（Group Relative Policy Optimization）**：用于具有明确可验证奖励的任务（如精神病理测试的正确率、角色扮演中目标达成率的规则验证）。我们遵循 GRPO 的标准实现。  
- **RL with Verbal Feedback (RLVF)**：用于开放式任务（如模拟人类对话的自然度、社会技能运用的恰当性）。我们使用一个 LLM 作为评判，它同时输出一个标量得分和一段文本反馈。该反馈被纳入更新中，引导策略朝着更符合行为真实性要求的方向优化。  

每个任务训练 2000 步，使用 PPO 或 RLOO 作为底层算法，其中评判 LLM 为 GPT-4o 或 Qwen3-72B（根据任务选择）。我们在训练过程中监控 Soul-Index 验证集上的性能，并选择最佳检查点作为该任务的专家模型。  

### 5.3 专家蒸馏  
任务特定 RL 结束后，我们拥有 23 个专家模型。为了将它们合并成一个可部署的单一模型，我们采用基于输出的蒸馏方法：  
1. 对于每个训练样本（来自灵魂索引的训练集或额外的无标签语料库），我们用所有 23 个专家模型并行生成响应。  
2. 收集每个专家的响应，并将其作为蒸馏目标。  
3. 使用 KL 散度作为损失，训练一个统一的模型 Osim（从 Osim-Mid 初始化）来模拟所有专家模型的输出分布。我们采用一种加权融合策略，根据任务的重要性或样本的难度动态调整各专家的贡献。  

最终得到的 Osim-8B 模型可以同时胜任所有 23 个任务，无需任务标识符即可进行零样本行为模拟。  

## 6 实验  
我们在 Soul-Index 基准上评估 Osim-8B 以及多个基线模型，包括：通用 LLM（GPT-4o、Claude-3.5、Qwen3-8B-Inst）、仅中期训练模型（Osim-Mid）、以及仅 SFT 或专家蒸馏的变体。主要结果如下：  
- **总体表现**：Osim-8B 在 23 个任务中的 8 个上排名第一或并列第一，总胜率达 6/23 的绝对领先。  
- **轴级分析**：提升主要集中在 CONV（7.3 点）和 SS（5.8 点）轴上，这表明提供社会情境的中期训练对于捕捉人类的社会互动模式至关重要。ROLE 和 COG 任务也受益于 RL 阶段的细粒度奖励。  
- **人类一致性**：通过人工评估，Osim-8B 的响应在自然度、多样性和移情表现上显著优于其他模型，更接近真实人类的响应模式。  
- **零样本用户模拟**：在 τ-bench 的用户模拟任务中，Osim-8B 的反应一致性得分为 93.2，接近真实用户（93.5），显著优于 GPT-4o（88.1），展示了其跨域泛化能力。  

## 7 消融与讨论  
我们进行了一系列消融实验以验证各组件的贡献：  
1. **中期训练的必要性**：去掉中期训练直接从头开始 RL 导致性能大幅下降（Soul-Index 平均分下降 ~12 点）。  
2. **社会情境的作用**：在中期训练中移除社会情境条件（即仅训练无条件生成）使得模型在 Role 和 SS 任务上表现变差，表明社会情境信息是行为模拟的关键。  
3. **RL 与 SFT 对比**：同等数据下，任务特定 RL 比任务特定 SFT 在 SS 和 COG 任务上取得约 3 点的更好性能，但在 EVAL 任务上两者接近。  
4. **蒸馏与直接多任务训练**：专家蒸馏优于直接多任务 RL（训练一个模型在所有任务上 RL），后者可能导致任务间干扰（平均分低 4 点）。  

我们还观察到，当使用 LLM 作为评判时，奖励信号有时会被模型“破解”，例如生成过长、模板化的反馈以获取高分。我们设计了基于熵和复杂性指标的检测器，并在 RL 过程中对这些模式进行惩罚，显著缓解了该问题。  

## 8 结论  
我们提出了 OdysSim：一个用于构建行为基础模型的系统框架和端到端训练方案，包含大规模语料库、综合性基准和强化学习蒸馏训练方法。我们的模型 Osim-8B 在人类行为模拟任务上达到了最佳性能，并能在零样本设置下模拟真实用户与工具使用智能体交互。这项工作表明，要有效模拟人类行为，我们需要专门设计的训练策略，而不仅仅是通用助手训练。我们开源所有数据、模型和代码，以促进该领域的未来研究。  

## 致谢  
略。  

## 参考文献  
按 bib 编号对应的文献列表。  

## 附录  
附录 A：更多训练细节  
附录 B：Soul-Index 任务详细定义  
附录 C：奖励函数设计  
附录 D：人类评估协议  
附录 E：Soul 框架的更多细节
OdysSim：构建人类行为模拟的基础模型

相似文章

BehaviorBench：面向行为科学任务的基础模型基准测试

SimFoundry：模块化与自动化场景生成用于策略学习与评估

BEHAVE：用于集体人类动态实时建模的混合人工智能框架

灵魂收集库

OASIS：从仿真数据收集到现实世界人形机器人全身操控

提交意见反馈