SOM：基于结构因果模型的LLM智能体结构化对手建模

arXiv cs.AI 2026/05/11 04:00 论文

摘要

本文介绍了结构化对手建模（SOM），这是一种利用结构因果模型将LLM智能体在多智能体环境中的对手表征与预测解耦的框架。该方法利用显式的因果结构而非隐式的上下文推理，提高了预测准确性和战略决策能力。

arXiv:2605.07301v1 公告类型：新论文摘要：在多智能体和博弈论环境中，从交互中准确预测对手行为是基于大语言模型（LLM）的智能体的一项基本能力。现有方法通常将对手建模与预测纠缠在一起，依赖于隐式的上下文推理，从而限制了其在动态交互中的适应性。为此，我们提出了结构化对手建模（SOM），这是一个两阶段的对手建模框架，明确区分了对手模型构建和对手预测。在构建阶段，SOM采用结构因果模型（SCM）——一种用于表示变量间依赖关系的基于图的表达形式，来捕捉对手观测值与行动之间的定向链接，从而产生显式且结构化的对手表征。在预测阶段，LLM沿着源自SCM的清晰路径进行结构化推理，从而提高了预测的准确性和稳定性。在多种多智能体基准上的广泛实验表明，SOM始终优于最先进的基于LLM的推理基线，使复杂和动态的多智能体交互中的战略决策更加准确和灵活。

查看原文

查看缓存全文

缓存时间: 2026/05/11 07:16

# 基于结构因果模型的LLM智能体结构化对手建模
来源: https://arxiv.org/html/2605.07301
\\setcopyright

ifaamas\\acmConference\[AAMAS ’26\]Proc\. of the 25th International Conference on Autonomous Agents and Multiagent Systems \(AAMAS 2026\)May 25 – 29, 2026 Paphos, CyprusC\. Amato, L\. Dennis, V\. Mascardi, J\. Thangarajah \(eds\.\)\\copyrightyear2026\\acmYear2026\\acmDOI\\acmPrice\\acmISBN\\affiliation\\institutionSchool of Artificial Intelligence, University of Chinese Academy of Sciences & Institute of Automation, Chinese Academy of Sciences\\cityBeijing\\countryChina\\authornotePei Xu and Kaiqi Huang are corresponding authors\.\\affiliation\\institutionNational Key Laboratory of Cognition and Decision Intelligence for Complex Systems, Institute of Automation, Chinese Academy of Sciences\\cityBeijing\\countryChina\\affiliation\\institutionSchool of Artificial Intelligence, University of Chinese Academy of Sciences\\cityBeijing\\countryChina\\affiliation\\institutionSchool of Artificial Intelligence, University of Chinese Academy of Sciences\\cityBeijing\\countryChina\\affiliation\\institutionInstitute of Automation, Chinese Academy of Sciences\\cityBeijing\\countryChina\\authornotemark\[1\]\\affiliation\\institutionSchool of Artificial Intelligence, University of Chinese Academy of Sciences & Institute of Automation, Chinese Academy of Sciences\\cityBeijing\\countryChina

###### 摘要\.

从交互中准确预测对手的行为，是多智能体和博弈论环境中基于大语言模型 \(LLM\) 的智能体的基本能力。现有方法通常将对手建模与预测纠缠在一起，依赖于隐式的上下文推理，从而限制了在动态交互中的适应性。为此，我们提出了**StructuredOpponentModeling \(SOM\)**，这是一个两阶段的对手建模框架，明确地解耦了对手模型构建和对手预测。在构建阶段，SOM 采用结构因果模型 \(SCM\)——一种用于表示变量间依赖关系的基于图的表示法——来捕捉对手观察结果与动作之间的有向链接，从而生成显式且结构化的对手表示。在预测阶段，LLM 沿着由 SCM 导出的清晰路径进行结构化推理，提高了预测的准确性和稳定性。在多种多智能体基准上的广泛实验表明，SOM 始终优于最先进的基于 LLM 的推理基线，使得在复杂且动态的多智能体交互中能够实现更准确、更适应性的战略决策。

###### 关键词和短语:

对手建模；大语言模型；多智能体博弈

## 1\. 引言

大语言模型 \(LLMs\) 已成为人工智能领域的一项变革性发展。通过在海量文本数据上进行训练，它们获得了广泛的世界知识 sun2023head，并展现出强大的推理 imani2023mathprompter 和问题解决 rasal2024llm 能力。这些强大的能力使 LLMs 成为复杂交互式环境中自主智能体的有力候选者，例如经济模拟 horton2023large;li2024econagent、协作任务 chen2024comm 以及战略谈判 bianchi2024well。在这些多智能体设置中，智能体的成功关键在于其建模对手行为并相应调整自身策略的能力 nashed2022survey，而缺乏对对手行为的深度认知可能导致策略容易被利用或错位，从而导致次优结果 carroll2019utility。这在以复杂战略交互和不断演变的行为为特征的战略推理场景中尤为重要。

然而，当前的方法倾向于通过基于 LLM 的上下文推理 zhang2024proagent;xu2023exploring;guan2024richelieu;guo2023suspicion 将建模——即识别对手如何做出决策的过程——与对手预测隐式地纠缠在一起。这种方法缺乏清晰、可控的推理路径——它既未规定如何系统地建立原始观察结果与对手最终动作之间的联系，也未指导语言模型应包含哪些关键中间推理过程，例如推断对手的信念或其隐藏信息。缺乏这种结构引导，语言模型的推理过程变得难以控制，往往遗漏关键信息 liu2023lost 或产生幻觉 ji2023survey。尽管现有的结构化推理方法，如思维树 Tree-of-Thought yao2023tree 和思维图 Graph-of-Thought Besta2024GraphofThoughtsSE 在许多任务中增强了 LLM 的推理能力，但它们主要设计用于静态问题设置，缺乏结合外部反馈的机制，因此难以适应战略交互的非平稳特性 zhang2024llm。这些局限性突显了在动态多智能体设置中需要新的方法来实现显式且可适应的对手建模。

Refer to caption
Figure 1\. 不同的对手建模范式示意。与忽略对手行为或在隐式推理中纠缠建模的基线不同，SOM 显式地构建结构化模型以引导对手预测。

为了解决这些挑战，我们提出了 **StructuredOpponentModeling \(SOM\)**，这是一个两阶段框架，明确地将对手模型构建和对手预测分开。这种设计使得基于 LLM 的智能体能够通过结构化且可控的过程对对手进行推理，而不是仅仅依赖隐式的上下文推断。如图 1 (https://arxiv.org/html/2605.07301#S1.F1) 所示，与现有将对手建模纠缠在上下文推理中的基于 LLM 的方法相比，这种两阶段设计提供了显式且可控的推理路径。

在**对手模型构建**阶段，SOM 构建了基于结构因果模型 \(SCMs\) 的显式对手模型，SCM 提供了一个结构框架来组织可观察因素与对手决策之间的推理依赖关系。在每次对手动作后，LLM 进行反思以推断观察到的结果是如何产生的——将对手的决策与上下文线索联系起来，并假设能够解释这种联系的中间推理变量。这些见解随后用于逐步构建和完善 SCMs，形成显式的推理骨干。

在**对手预测**阶段，LLM 根据构建阶段捕获的结构化依赖关系进行推理，以预测对手的下一个动作。在每一步中，模型利用与该结构中相关依赖关系相关的推理示例，这些示例记录了先前成功的推断，将观察到的因素与对手行为联系起来。这使得智能体能够随着新观察结果不断完善其推理，提高动态多智能体交互中预测的准确性和适应性。

最后，我们在多个多智能体游戏环境中验证了我们方法的有效性。广泛的实验表明，在面对不同对手时，我们的框架显著优于现有的基线方法。对训练过程的分析进一步证实，我们的方法在交互过程中准确地学习了对手的策略。

总体而言，我们对战略推理的贡献总结如下：

- • 我们提出了 **SOM**，一种新颖的对手建模框架，利用结构因果模型 \(SCMs\) 将对手预测转化为结构化且可控的推理过程。
- • 在 SOM 中，我们实现了两个关键机制：交互过程中推理结构的动态构建，以及将特定于对手的推理知识整合到结构化依赖关系中。
- • 我们在多样化的多智能体环境中对 SOM 进行了实证验证，表明它优于强大的基线，并随时间自适应地捕捉不同对手的行为。

## 2\. 相关工作

### 2\.1\. 基于 LLM 的战略推理

战略推理 zhang2024llm 指的是智能体分析对手历史和游戏状态、推断对手策略和动作，并根据这些预测调整自身策略以选择最佳行动的能力。早期工作如 Cicero meta2022human 将语言模型与战略推理相结合，创造了一个能够玩《外交》游戏的对话智能体。Cicero 利用 LLM 建模其他玩家的信念和意图以预测其动作，实现了人类水平的表现。后续研究将 LLMs 应用于各种多人游戏。在像狼人杀这样的社交推理游戏中 xu2023language;wu2024enhance，研究旨在通过让智能体理解游戏机制并适应对手的战术来增强其战略能力，通常涉及通过对话分析进行隐式的对手预测。心智理论 \(ToM\) guo2023suspicion 和 k 级思维模型 zhang2024k 也被改编用于递归推断对手的隐藏信念并预测其在战略推理中的行为。EMO yu2025llm 方法通过构建多个特定于智能体的模型来模拟对手建模，但它仍然缺乏对对手决策过程的显式表示。

尽管这些方法利用了 LLMs 强大的推理能力，并且通常包含某种形式的对手动作预测，但它们通常将对手建模视为一般的推理任务。虽然某些方法可能使用视角转换来模拟推断过程，但这些方法往往缺乏清晰且可控的推理路径。

### 2\.2\. 用于推理的结构化提示

结构化提示是一种通过显式结构化提示格式来引导 LLMs 进行多步推理的技术，显著增强了它们的推理能力。一种基础方法是思维链 \(CoT\) wei2022chain，它使 LLMs 能够生成一系列中间的自然语言推理步骤。在此基础上，自我一致性 \(SC\) Wang2022SelfConsistencyIci 通过采样多样的推理路径并通过多数投票聚合结果来提高 CoT 的鲁棒性。为了克服 CoT 固有的线性限制，思维树 \(ToT\) yao2023tree 将建模为树状探索，允许分支和回溯。进一步推广这一概念，思维图 \(GoT\) Besta2024GraphofThoughtsSE 利用任意图结构来表示思想之间的复杂依赖关系。在此基础上，思维图 \(DoT\) Zhang2024OnTD 允许单个 LLM 使用特定角色的令牌在内部构建并在 DAGs 上进行推理，无需外部控制即可简化多步推理。逻辑思维 \(LoT\) Li2025LogicofThoughtEL 进一步将形式逻辑整合到提示中，以提高一致性和演绎精度。

尽管结构化提示显著增强了 LLMs 的推理能力，但现有方法主要设计用于静态问题设置，缺乏结合反馈或随时间适应其推理结构的机制。因此，它们在以战略交互和演变行为为特征的动态多智能体环境中难以有效捕捉对手行为。这一局限性突显了在这样的环境中需要能够实现更自适应和对手感知推理的方法的紧迫性。

Refer to captionFigure 2\. SOM 的对手建模流程示意。SOM 在两个显式阶段运行。首先，通过构建捕捉关键决策相关变量及其依赖关系的结构化因果图，构建对手的 SCM 表示。其次，它利用从过去交互中得出的个性化推理示例来填充该 SCM 的结构关系。在推理过程中，SOM 遍历图以逐步模拟对手的推理过程，实现显式且自适应的对手建模。

### 2\.3\. 对手建模

对手建模 \(OM\)，即分析和预测多智能体系统中其他智能体的行为，是一项基本技术。为了应对未知和非平稳的对手：编码器-解码器架构 papoudiskis2021agent 仅使用受控智能体的局部信息来识别对手模型。UAOM yang2025uncertainty 捕获随机对手行为中的偶然性和认知不确定性。元学习贝叶斯信念推理 zintgraf2021deep 结合变分自编码器来建模对手信念；元多智能体策略梯度定理 kim2021policy 通过考虑相互非平稳动态来适应新智能体。GSCU fu2022greedy 学习离线对手策略嵌入并训练通用最佳响应模型。对于多样化的对手，MBOM yu2022modelsim 通过环境模型模拟递归推理，通过混合改进的策略适应各种类型。OEOM jing2025open 通过基于种群的训练持续生成多样化的对手，并通过上下文强化学习增强鲁棒性。为了利用对手：L2E wu2022l2e 通过最小交互获得利用能力；M-FOS lu2022model 通过无模型优化实现长 horizon 塑造；MOL hu2023modeling 使用最佳响应理论来近似偏好以改进稳定均衡。与这些传统的对手建模方法不同，我们的工作专注于 LLM 驱动的决策场景中的对手建模，这在现有研究中尚未得到充分探索。

## 3\. 预备知识

### 3\.1\. 部分可观测随机博弈

我们将多智能体交互建模为**部分可观测随机博弈 \(POSG\)**，这是多智能体序列决策的标准框架。POSG 正式由元组 yang2020overview 定义：

$\langle N,S,\{A^i\}_{i=1}^N,P,\{R^i\}_{i=1}^N,\gamma,\{O^i\}_{i=1}^N,Q\rangle,$

其中，$N$ 是智能体集合，$S$ 表示状态空间。每个智能体 $i$ 有单独的动作空间 $A^i$，联合动作空间定义为 $A=\times_{i=1}^N A^i$。状态转移函数由 $P:S\times A\rightarrow\Delta(S)$ 给出，其中 $P(s'\mid s,a)$ 表示在采取联合动作 $a$ 后从状态 $s$ 转移到状态 $s'$ 的概率。每个智能体 $i$ 接收由其奖励函数 $R^i:S\times A\times S\rightarrow\mathbb{R}$ 确定的标量奖励，该函数为转移 $(s,a)\rightarrow s'$ 提供标量奖励。$\gamma\in[0,1]$ 是折扣因子。

每个智能体 $i$ 从环境接收观察 $o^i\in O^i$，联合观察空间定义为 $O=\times_{i=1}^N O^i$。观察函数 $Q:S\times A\times S\rightarrow\Delta(O)$ 指定在给定联合动作 $a$ 和下一状态 $s'$ 时接收联合观察 $o$ 的概率，即 $Q(o\mid a,s')$。

智能体在时间 $t$ 的局部历史是其过去的观察、动作和奖励序列：$h_t^i=(o_0^i,a_0^i,r_0^i,\dots,a_{t-1}^i,r_{t-1}^i,o_t^i)$。智能体的策略将此历史映射到动作上的分布：$\pi^i(a_t^i\mid h_t^i)$。

在本工作中，我们关注自智能体（我们控制的智能体）的视角，用上标 $i$ 表示。所有其他智能

SOM：基于结构因果模型的LLM智能体结构化对手建模

相似文章

SOMA：通过小语言模型实现高效的 LLM 多轮对话服务

多智能体协商中基于对手建模的偏好估计

学习建模他人思维

@omarsar0: // LLM 智能体中的记忆诅咒 //（建议收藏）过长的历史记录显然会导致智能体性能下降，因为它们变得越来越…

用于显式问题求解器建模的认知智能体编译

提交意见反馈