老板、国王与公共资源:LLM社会中的权力不对称下的合作

arXiv cs.CL 论文

摘要

介绍SovSim,一个多智能体模拟框架,用于研究具有不对称权力结构的LLM社会中的合作与资源可持续性。实验表明,引入主导智能体(老板或国王)会严重削弱合作和生存率,这一结果在11个最先进模型中普遍存在。

arXiv:2605.29062v1 公告类型:新 摘要:社区可以通过自治和合作规范可持续地管理共享资源(公共资源),这是奥斯特罗姆自治理论的核心发现。然而,现实世界中的公共资源(例如渔业、森林和灌溉系统)往往在不对称权力结构下进行治理,其中某些个人或机构对资源开采和集体成果拥有不成比例的控制权。随着大型语言模型(LLM)越来越多地被探索为合成治理模拟中的智能体,理解LLM社会在不对称权力结构下的行为变得越来越重要,但现有的评估在很大程度上忽略了这种不对称性。我们引入了公共资源主权模拟(SovSim),这是一个生成式多智能体模拟框架,它将一个具有不对称权力的智能体(老板或国王)融入到一个对称智能体(工人或农民)的社会中,所有智能体从共享资源中提取资源,共同决定其随时间推移的可持续性。在11个最先进模型中,我们发现引入不对称权力会导致合作和可持续性的严重崩溃,相对于对称设置,生存率下降高达87.3%。
查看原文
查看缓存全文

缓存时间: 2026/05/29 09:15

# 首领、国王与公地:LLM社会中权力不对称下的合作  
来源:https://arxiv.org/html/2605.29062  

###### 摘要  
社区可以通过自我治理与合作规范可持续地管理共享资源(公地),这是奥斯特罗姆自我治理理论的核心发现。然而,现实中的公地(如渔场、森林和灌溉系统)往往在不对称的权力结构下运行,某些个体或机构对资源开采和集体结果拥有不成比例的控制权。随着大型语言模型(LLM)越来越多地被探索作为合成治理模拟中的智能体,理解LLM社会在权力不对称结构下的表现正变得越来越重要,但现有评估大多忽略了这种不对称性。我们引入了**Sovereignty over the Commons Simulation(SovSim)**,这是一个生成式多智能体模拟框架,它将一个具有不对称权力的智能体(首领或国王)引入到一个由对称智能体(工人或农民)组成的社会中,所有智能体都从共享资源中提取,共同决定其长期的可持续性。在十一个最先进模型中,我们发现引入不对称权力会导致合作与可持续性的严重崩溃,与对称设置相比,存活率降低高达87.3%。  

首领、国王与公地:LLM社会中权力不对称下的合作  
Abhilekh Borah*(通讯邮箱:[email protected])  

## 1 引言  

参见图1:**SovSim** 基于社会困境中不对称权力的研究,受“首领与国王”实验范式(Cox et al., 2011)启发,该范式展示了智能体之间的权威差异如何显著改变公共池塘资源环境中的效率和集体结果。如图所示,权力相等的智能体首先决定从共享资源(公地)中提取多少,而在不对称设置中,一个拥有更高权力的主导智能体(首领或国王)在观察他人提取后行动,并可以剥削剩余资源。整个智能体群体的提取行为导致了不同的结果:可持续的资源使用或过度提取及最终崩溃。  

当共享同一资源的参与者因个人理性行为导致集体低效结果时,就会产生社会困境,尤其是在公共池塘资源系统中,无限制地占用共享资源(公地)可能导致资源枯竭或崩溃(Hardin, 1968)。先前关于公地治理的研究表明,社区可以通过自我治理、监督和合作规范来维持共享资源(Ostrom, 1990; Ostrom et al., 1992; Fehr and Gächter, 2000)。然而,在实践中,公地经常在不对称权力结构下运行,某些行为者对资源获取、提取、信息或规则制定拥有不成比例的控制权(Ostrom and Gardner, 1993)。这种不对称从根本上改变了集体行为:主导行为者可以占有更大份额的公地,影响较弱参与者之间的协调,破坏合作,从而加速社会内部的资源崩溃。  

大型语言模型(LLM)越来越多地被部署为治理模拟中的合成智能体,这些模拟既塑造又反映了从大规模在线数据预训练中学到的人类行为模式(Bhattacharyya et al., 2026; Salah and others, 2024; Park and others, 2025)。在这一研究路线中,近期研究评估了LLM社会能否在公地类环境中维持合作(Park et al., 2023; Piatti et al., 2024a; Piedrahita et al., 2025),为研究合成LLM社会中的涌现集体行为提供了可扩展框架(见附录A.1的相关工作)。然而,这些模拟环境始终将智能体建模为对称的,赋予所有智能体相同的角色、动作空间和信息结构,从而在新兴计算方法中基本未涉及权力不对称。这对于AI安全等领域尤为重要,因为在多智能体系统中,主导智能体可能利用较弱的智能体、操纵信息并集中权力,从而引入潜在漏洞。这一空白引出了我们的核心问题:**当共享资源的合作在不对称权力结构下展开时,LLM社会会如何表现?**  

为解决这一问题,我们引入了**Sovereignty over the Commons Simulation**(SovSim)¹,这是一个生成式多智能体模拟框架,明确将不对称权力结构纳入LLM智能体的公地治理中(见图1)。我们的设计直接借鉴了Cox、Ostrom和Walker的“首领与国王”实验范式(Cox et al., 2011),并将其适配到多智能体场景中,LLM智能体在一个共享可再生资源上互动。在SovSim中,智能体参与一系列12轮决策,他们必须平衡个人资源提取与集体可持续性,以在多个回合中存活并最大化收益。我们引入了四个游戏变体,镜像“首领与国王”框架:一个对称设置,包含相同的智能体(公民):(i) 公共池塘资源(CPR)游戏;以及三个不对称设置,包含一个主导智能体(首领或国王)和三个从属智能体(工人或农民):(ii) 首领公共池塘资源(BCPR),(iii) 国王公共池塘资源(KCPR),以及 (iv) 具有虚假陈述的国王公共池塘资源(KCPR-M)游戏(见第2.2节)。  

在十一个最先进的LLM中,引入一个具有不对称权力的主导智能体导致在所有不对称游戏设置中性能显著下降,与对称设置相比,存活率降低高达87.3%,总收益降低高达73.5%。我们发现,共享资源的过度使用急剧上升,从对称智能体的8.9%上升到主导智能体的高达100%,导致共享资源池更早且更频繁地崩溃(见图3)。我们进一步观察到,在全部十一个模型中,主导智能体的提取率与共享资源的存活时间之间存在强烈的负相关关系(Pearson r = -0.86,R² = 0.75),表明更高的提取导致更快的资源崩溃,显示共享资源的命运主要由社会中最强大的智能体决定(见第3.2节)。  

总之,我们的贡献如下:  
1.  我们引入了**SovSim**,据我们所知,这是第一个为LLM智能体设计的、包含不对称权力结构的公共池塘资源模拟框架,受“首领与国王”实验范式(Cox et al., 2011)启发。  
2.  我们在四个游戏条件中操作化了权力不对称:CPR(对称设置)以及BCPR、KCPR和KCPR-M(不对称设置),涵盖了顺序决策、主权占有和信息操纵。  
3.  在所有四个游戏和十一个最先进的LLM中,我们表明引入一个主导智能体导致智能体的存活率相比对称设置下降高达87.3%,总收益下降高达73.5%。  

参见图2:SovSim在公共池塘资源游戏中的工作流程概览。给定一个具有初始值的共享池(中心),智能体在重复回合中互动(左侧),其中对称智能体(农民或工人)独立决定从池中提取多少(以3为单位)。在不对称游戏条件如KCPR和BCPR中(见第2.2节),一个主导智能体(首领或国王)在观察他人提取决策和剩余池值后行动:首领以3为单位提取,而国王可以从整个剩余资源中提取任意数量。环境根据集体提取更新池值,随时间再生,如果低于阈值τ则崩溃(见第2.1节)。  

## 2 SovSim设置  

在本节中,我们描述SovSim框架如何运作。如图2所示,智能体在一个重复的公共池塘资源场景中互动,共享资源根据集体提取决策随时间演变。每个智能体从同一个LLM骨干实例化,但根据角色(公民、工人、农民、首领或国王)进行条件化,该角色决定其决策上下文、提取权以及获取他人行动的能力。我们在SovSim中严格通过结构特征定义层级和权力不对称,即智能体行动的顺序及其持有的提取权,而非通过角色标签本身。首领或国王在所有其他智能体之后行动,并在选择前观察他们的决策,而工人和农民则单独提交提取,彼此之间不观察。我们不通过人口统计属性(如年龄、职业、收入)、心理属性(如人格特质或价值观)或角色标签中的名称来分配层级。这避免了结构权力与LLM通过预训练数据已编码的人口统计和社会刻板印象(Salah and others, 2024; Argyle et al., 2023)的混淆,确保观察到的行为来自博弈论权力操纵,而非社会负载的角色关联(见附录A.6的角色标签实验)。  

### 2.1 环境  

SovSim的环境遵循“首领与国王”实验的所有参数化(见附录A.2)。我们将从属智能体定义为具有对称权力、相同动作空间和平等提取权的智能体,将主导智能体定义为游戏中具有不对称权力的智能体。SovSim是一个多轮公共池塘资源游戏,由n=4个智能体在最多T=12轮中进行,其中t ∈ {1, ..., T}索引每一轮(与GovSim(Piatti et al., 2024b)的时间跨度匹配)。所有智能体共享一个初始值为P₀ = $120的资源池。每个资源提取单位对应$3。在每一轮t开始时,池值为Pₜ。每个智能体i选择一个提取zᵢᵗ ∈ {0, 3, 6, ..., 30},即3的非负倍数,对于从属智能体最大值为30(对于主导智能体,根据所玩游戏可能更高)。所有智能体提取后,剩余池值为:  

Pₜ^剩余 = Pₜ - Σᵢ zᵢᵗ   (1)  

接下来,我们根据集体提取定义资源随时间的变化。在初始池值P₀ = $120之后,池值在每轮结束时按以下方式再生:  

Pₜ₊₁ = min(120, 2 × Pₜ^剩余)   (2)  

即剩余资源每轮翻倍,但上限为最大池值$120。这种再生模拟了一个可再生的公共池塘资源,其存量随时间恢复,如同之前的模拟框架如GovSim。  

参见图3:四个游戏条件下共享资源池的动态变化。每个图显示了多个LLM智能体在12轮中池值的演变。红色虚线表示崩溃阈值($12)。在不同条件下,权力不对称的增加(BCPR、KCPR和KCPR-M)导致更早且更频繁的资源崩溃,而对称智能体在CPR中维持池值接近容量。每个模型的阴影区域表示五次模拟运行中的变异性。  

为了捕捉过度提取下的资源崩溃,我们定义了一个最小崩溃阈值。鉴于每个资源提取单位为$3且代理数量n=4,我们将崩溃阈值定义为τ = 4 × 3 = $12,对应于最小可分割分配(即每个智能体$3)。如果剩余池值低于此水平,则资源无法再有意义地分配,因此被视为耗尽。我们将此条件定义为:  

Pₜ^剩余 < τ ⇒ Pₜ₊₁ = 0   (3)  

然后,我们通过引入可持续性阈值f(Pₜ)来定义能够随时间保存资源的提取水平,f(Pₜ)定义为时间t时能够保存资源池的最大总资源提取量。根据公式2中的再生动态,这对应于:  

f(Pₜ) = Pₜ / 2   (4)  

在P₀ = $120时,这给出f(120) = $60,即总提取不得超过$60以维持池值。相应的人均可持续份额为f(Pₜ)/n = Pₜ/8。随着池值Pₜ在轮次间变化,可持续性阈值动态调整。  

最后,我们定义智能体面临的激励。借鉴“首领与国王”实验的收益结构,我们定义每个智能体每轮获得的收益为:  

πᵢᵗ = zᵢᵗ/3 + Pₜ^剩余 / n   (5)  

其中资源提取带来私人收益,剩余池值则平均分配。更高的资源提取增加了私人收益,但减少了公共收益。随着池值Pₜ在轮次间变化,收益的共享部分动态调整。  

参见图4:(a) GPT-4o 和 (b) o3 在国王公共池塘资源(KCPR)游戏中的智能体级资源提取轨迹和池动态。在5个模拟种子中,我们展示了系统存活到最后一轮(两个表现最好的模型)的运行。(a) GPT-4o:农民持续以中等水平提取(每轮数值相似),将池值维持在容量附近(约$120)。(b) o3:农民提取不均匀(每轮变化),导致池值出现明显波动。在这两个模型中,国王在早期轮次中提取最少,仅在最后一轮占有较大份额。  

表1:实验结果显示为均值±95%置信区间(CI),基于5个模拟种子,在4个游戏中对6个模型进行评估。我们报告存活...

相似文章

Agent Bazaar:在多智能体市场中实现经济对齐

Hugging Face Daily Papers

介绍Agent Bazaar,一个用于评估LLMs经济对齐的多智能体模拟框架,识别出算法不稳定性和Sybil欺骗等失败模式,并通过针对性强化学习训练出一个超越前沿模型的9B模型。