心智理论提升是否真的有益于人机交互？来自交互评估的实证发现

arXiv cs.AI 2026/05/18 04:00 论文

theory-of-mind llm human-ai-interaction evaluation interactive benchmark social-cognition

摘要

本文针对大语言模型的心智理论能力提出了一种新的交互评估范式，发现静态基准测试上的提升并不能转化为动态人机交互中的更好表现，凸显了基于交互评估的必要性。

arXiv:2605.15205v1 公告类型：新论文摘要：提升大语言模型的心智理论能力对于这些AI模型与人类之间的有效社交交互至关重要。然而，现有基准通常通过第三人称视角的故事阅读和选择题来测量ToM能力的提升，而忽略了人机交互中第一人称、动态和开放式的特性。为了直接探究ToM提升技术如何有益于HAI交互，我们首先提出了新的交互式ToM评估范式，同时进行了视角和指标的转变。接着，遵循该范式，我们使用四个真实世界数据集和一项用户研究，系统研究了四种代表性的ToM增强技术，涵盖了目标导向任务（如编程、数学）和经验导向任务（如咨询）。我们的发现表明，静态基准测试上的提升并不总能转化为动态HAI交互中的更好表现。本文为ToM评估提供了关键见解，显示了基于交互的评估在开发下一代具有社会意识的LLM以实现HAI共生中的必要性。

查看原文

查看缓存全文

缓存时间: 2026/05/18 06:30

# 心智理论改进真的有益于人机交互吗？来自交互式评估的实证发现
来源: https://arxiv.org/html/2605.15205

Nanxu Gong¹∗, Zixin Chen²∗, Haotian Li³†, Zishu Zhao⁴∗, Jianxun Lian³, Huamin Qu², Yanjie Fu¹, Xing Xie³
¹亚利桑那州立大学, ²香港科技大学, ³微软亚洲研究院, ⁴史密斯学院
通讯: [email protected] (https://arxiv.org/html/2605.15205v1/mailto:[email protected]), [email protected] (https://arxiv.org/html/2605.15205v1/mailto:[email protected])

###### 摘要

![参见说明文字](图1:基于一种新的动态交互式评估范式，我们的研究探索了具有现有心智理论增强技术的大语言模型在人机协同中的有效性。)

提升大语言模型(LLMs)的心智理论(Theory of Mind, ToM)能力对于这些AI模型与人类之间的有效社交交互至关重要。然而，现有的基准测试通常通过故事阅读、第三人称视角的多项选择题来衡量ToM能力的改进，而忽略了人机交互(HAI)的第一人称、动态和开放式特性。为了直接检验ToM改进技术如何有益于人机交互，我们首先提出了交互式ToM评估的新范式，包括视角和指标的转变。接着，遵循该范式，我们使用四个基于真实场景的基准测试和一项用户研究，对四种代表性ToM增强技术进行了系统研究，涵盖了目标导向任务（如编码、数学）和体验导向任务（如咨询）。我们的发现表明，静态基准测试上的改进并不总是能转化为动态人机交互中更好的表现。本文提供了对ToM评估的关键见解，展示了基于交互的评估在开发下一代具有社会意识的人机协同LLMs方面的必要性。

## 1 引言

心智理论(Theory of Mind, ToM)是指归因于不可观察心理状态（如信念、意图、情绪）的认知能力，这对社交互动至关重要(Chen et al., 2025a (https://arxiv.org/html/2605.15205#bib.bib27); Sarıtaş et al., 2025 (https://arxiv.org/html/2605.15205#bib.bib28); Strachan et al., 2024 (https://arxiv.org/html/2605.15205#bib.bib2))。作为社会认知的基础组成部分，ToM已被认为是先进LLMs应具备的核心社交智力技能，以改善其与人类的交互，最终实现人机协同的目标(Street 2024 (https://arxiv.org/html/2605.15205#bib.bib1))。为了培养LLMs的ToM能力，关键是理解其能力水平以及通过适当且充分的评估带来的改进方法所获得的益处。为实现这一目标，现有主流方法是静态的、基于任务的评估，采用故事-问题-选项格式，这种方法是源于经典错误信念测试（如Sally-Anne任务）的思路，例如Kosinski (2024 (https://arxiv.org/html/2605.15205#bib.bib3))的工作。遵循这种设计，后续的基准测试如HiToM (Wu et al., 2023 (https://arxiv.org/html/2605.15205#bib.bib5)) 和 ToMBench (Chen et al., 2024 (https://arxiv.org/html/2605.15205#bib.bib11)) 增加了这些测试的复杂性和多样性。更新的基准测试，如ExploreToM (Sclar et al., 2025 (https://arxiv.org/html/2605.15205#bib.bib12))，利用对抗方法进一步增加了问题的多样性，并降低了LLM训练过程中记忆基准测试的风险。然而，这些第三人称的故事阅读基准测试仅以准确性为唯一标准，未能将ToM评估扎根于人机交互与协作的真实世界场景中。在人机交互场景中，LLMs应利用其ToM能力，以第一人称视角执行行动，回应动态且有时是开放式的用户请求，并满足多样化的目标指标。任务性质的不匹配造成了严重的“社会技术鸿沟”(Liao and Xiao 2023 (https://arxiv.org/html/2605.15205#bib.bib50))，使得基准测试表现与现实世界能力之间存在差距，即ToM基准测试结果的改进可能不会转化为人类与LLM交互中的显著收益。为了揭示这一差距并指导未来的ToM评估，我们的研究通过一种新的交互式ToM评估范式，探讨这些基准测试改进如何转化为现实世界的价值。我们首先将ToM任务从静态的第三人称视角转变为动态、开放式的第一人称视角，其中LLM代理在多样化的真实世界场景中进行多轮对话。接下来，借鉴认知科学 (Epstein, 1998 (https://arxiv.org/html/2605.15205#bib.bib36); Amir et al., 2025 (https://arxiv.org/html/2605.15205#bib.bib35); Bales, 1950 (https://arxiv.org/html/2605.15205#bib.bib44))，我们根据评估目标将这些场景分为两大类：目标导向任务（如数学、代码）和体验导向任务（如咨询、医疗保健）。然后，我们在这两类场景下的九个任务中模拟真实的人机交互，并利用任务特定的指标（如准确性、成功率）来评估采用ToM增强技术（包括基于提示的技术和基于微调的技术）的LLMs的性能。通过汇总来自四个基准测试的结果，我们全面评估了ToM增强技术在九个与用户实际需求高度一致的领域中的有效性。此外，我们还进行了一项众包用户研究来支持我们的发现，确保结果反映人类的真实感知。我们的严格评估揭示了当前ToM增强技术的三个关键见解：

(i) **评估中的性能差距**: 模型在静态的基于故事的ToM基准测试上的表现与其在动态交互场景中的实际能力之间存在显著差距，表明当前评估方法不足以衡量其准备好进行人机协作。

(ii) **泛化失败**: ToM增强技术提升了模型在体验导向任务中的表现，但未能将这种成功泛化到目标导向任务中，从而分离了不同现实世界场景中的能力需求。

(iii) **用户感知的差距**: 当前ToM方法带来的适度提升往往过于细微，无法跨越用户的感知阈值，这意味着基准测试中衡量的改进并未转化为有意义的更好用户体验。

我们的贡献包括：

- • 我们将ToM评估从静态测试转变为动态、真实世界的人机交互。
- • 我们通过模拟交互基准测试和用户研究，在目标导向和体验导向场景中评估了ToM增强方法。
- • 我们识别了当前ToM增强方法的关键局限性，并为未来研究提供了见解。

## 2 交互式ToM评估范式

### 2.1 背景：现有的静态基准测试ToM评估范式

现有基准测试中的ToM评估通常通过静态的故事-问题-选项格式来实现。形式上，给定一个故事 \(S = \{s_1, s_2, \dots, s_n\}\) 和一个问题 \(Q\)，模型必须从候选集合 \(O = \{o_1, \dots, o_k\}\) 中选择正确答案，其中只有一个选项 \(o_{\text{correct}}\) 是正确的：
\[
o^* = \arg\max_{o_i \in O} P(o_i \mid S, Q).
\]
(1)
性能通过准确性来衡量：
\[
\text{Acc} = \frac{1}{N} \sum_{i=1}^N \mathbb{I}(o_i^* = o_{i,\text{correct}}),
\]
(2)
其中 \(N\) 是测试样本数量。这种公式化体现了一种**静态评估范式**，推理发生在一个固定的文本世界中。它难以反映人机交互中开放式、动态和多轮的本质，因为响应不是唯一的，其满意度不能简单地被判断为二元结果。

![参见说明文字](图2:我们用于真实世界人机交互的交互式ToM评估范式概览。)

### 2.2 我们的范式：将ToM评估转向交互式人机交互设置

大量的发展、纵向和神经认知研究表明，更强的ToM与更丰富的社交能力、更合作的互动行为以及更有效的联合行动相关(Imuta et al., 2016 (https://arxiv.org/html/2605.15205#bib.bib40); Devine et al., 2016 (https://arxiv.org/html/2605.15205#bib.bib41); Baron-Cohen et al., 1985 (https://arxiv.org/html/2605.15205#bib.bib42))。这促使一种评估设置，即LLM必须在交互过程中追踪并使用合作伙伴的潜在心理状态，而不仅仅是在固定文本中选择一个选项。因此，我们在人机交互(HAI)中研究ToM，其中LLM代理 \(A\) 通过多轮对话与人类 \(H\) 交互。令 \(D_{1:t} = (u_1, \ldots, u_t) \in \mathcal{D}\) 表示到第 \(t\) 轮的对话历史，其中每个话语 \(u_i\) 由 \(H\) 或 \(A\) 产生。给定一个任务 \(T \in \mathcal{G}\)，代理首先推断一个潜在心理状态：
\[
z_{t+1} \sim P_{\mathrm{ToM}}(\cdot \mid D_{1:t}, T), \quad z_{t+1} \in \mathcal{Z},
\]
(3)
然后根据以下方式生成下一个响应：
\[
u_{t+1}^A \sim \pi_A(\cdot \mid D_{1:t}, T, z_{t+1}).
\]
(4)
评估是依赖于场景的。对于每个场景 \(\Gamma\)，我们定义一个评分模式 \(\Gamma = (\Phi_\Gamma, \mathrm{Agg}_\Gamma)\)，其中 \(\Phi_\Gamma = \{\phi_j\}_{j=1}^m\) 是一组面向方面的评分函数：
\[
\phi_j: \mathcal{D} \times \mathcal{G} \times \mathcal{Z} \to [0, 1],
\]
(5)
而 \(\mathrm{Agg}_\Gamma: [0, 1]^m \to \mathbb{R}\) 将 \(m\) 个方面分数聚合为单轮分数。令 \(\tau\) 为对话长度，并令 \(w_1, \ldots, w_\tau\) 为非负时间权重，满足 \(\sum_{t=1}^\tau w_t = 1\)。策略 \(\pi_A\) 在任务 \(T\) 上的场景特定性能定义为：
\[
\mathcal{M}_\Gamma(\pi_A, T) = \mathbb{E}_{D_{1:\tau} \sim P(\cdot \mid \pi_A, H, T)} \left[ \sum_{t=1}^\tau w_t \cdot \mathrm{Agg}_\Gamma \big( \phi_{1:m}(D_{1:t}, T, z_{t+1}) \big) \right].
\]
(6)
这里，\(P(\cdot \mid \pi_A, H, T)\) 表示由代理策略 \(\pi_A\)、人类对话者 \(H\) 和任务 \(T\) 引发的对话轨迹分布。从静态基准测试转向交互式评估引入了两个基本转变：

#### 视角

在静态基准测试中，模型作为**第三人称观察者**，推理一个固定的叙事世界。在交互式人机交互环境中，模型成为**主动参与者**，需要从第一人称视角在交互过程中预测、适应并影响人类的心理状态。

#### 指标

虽然静态设置仅通过**准确性**在预定义答案上评估模型，但交互式人机交互环境需要更丰富的指标。在我们的公式中，评估遵循通用模式 \(\mathcal{M}_\Gamma\)，可以包含目标完成率和人类满意度等指标。最终，这种范式转变将ToM评估从衡量静态推理准确性重新定义为衡量动态协作有效性。

## 3 方法论

### 3.1 使人机交互中的ToM方法适应

现有的增强LLMs ToM能力的方法大致可分为三类：提示工程、微调和外部模块集成。由于我们的主要目标是研究现有技术能多好地提升模型ToM能力，而不是构建具有多个模块的新AI系统，因此我们从前两类中选择方法。具体来说，我们选择了**Foresee and Reflect (FaR)** (Zhou et al., 2023a (https://arxiv.org/html/2605.15205#bib.bib19))、**Perspective Taking (PT)** (Wilf et al., 2024 (https://arxiv.org/html/2605.15205#bib.bib18))、**Supervised Fine-tuning (SFT)** (Sclar et al., 2025 (https://arxiv.org/html/2605.15205#bib.bib12)) 和 **Reinforcement Learning (RL)** (Lu et al., 2025 (https://arxiv.org/html/2605.15205#bib.bib20)) 进行实验。系统综述和我们的选择标准见附录A.1 (https://arxiv.org/html/2605.15205#A1.SS1)。一个关键挑战是，虽然我们的人机交互交互环境需要第一人称对话，但大多数现有的ToM方法是为第三人称的多项选择任务设计的。因此，我们调整所选方法以适用于直接交互，如图2 (https://arxiv.org/html/2605.15205#S2.F2)所示。对于提示方法，我们保留其核心原则（例如，反思和视角转换），并将提示重新表述为第一人称对话上下文。对于微调方法，我们通过将主角的名字替换为“我”，将训练数据转换为第一人称视角。然后，我们将这些调整后的方法应用于两个广泛使用的基础模型，GPT-4o和Llama-3.1-8B，以创建我们的测试模型套件。请注意，由于微调限制，不包括GPT-RL模型。附录A.3 (https://arxiv.org/html/2605.15205#A1.SS3) 显示，这些技术改进了两个基础模型在现有ToM基准测试上的表现。接下来，在交互式评估中应用带有这些技术的模型变体，以验证现有基准测试的改进是否能转化为动态人机交互中的实际益处。

### 3.2 识别人机交互场景

在实验之前，我们识别人机交互场景类型，以指导应使用哪些数据集和指标进行全面评估。交互过程分析(IPA)表明，人类群体互动可靠地分为任务过程和社会情感过程(Bales 1950 (https://arxiv.org/html/2605.15205#bib.bib44))。受这一经典理论的驱动，我们将人机交互场景分为两个不同的类别：目标导向和体验导向。

#### 目标导向任务

此类任务涉及用户将LLM用作**助手**来完成特定且可衡量的目标（例如，代码生成和文档编辑）。先前研究表明，ToM可以通过加强用户与模型之间的协调协议来提高任务准确性(Engel et al., 2014 (https://arxiv.org/html/2605.15205#bib.bib51))。特别是，更强的心理状态归因有助于模型推断用户在不明确提示背后的潜在意图，从而减少误解并改进协作执行。这一观点得到了进一步证据的支持，即集体...

心智理论提升是否真的有益于人机交互？来自交互评估的实证发现

相似文章

心智理论——LLM与人类

行动中的心智理论：动态人-智能体协作中的指令推理任务

Agent-ToM: 通过心智理论推理学习监控自主LLM智能体

OmniToM: 通过显式信念建模对大语言模型的心智理论进行基准测试

不完全合作的人-AI交互：模拟与用户研究中人类和AI属性影响的比较

提交意见反馈