AI智能体之间的信任:测量形成、破裂与恢复,及其对多智能体系统治理的启示

arXiv cs.AI 论文

摘要

本文基于合作生存游戏中的成本验证,提出了一种衡量AI智能体之间信任的行为测量方法,研究了六个前沿模型快照中信任的形成、破裂与恢复。研究发现不同模型在信任校准上存在差异,且持续过度验证与犹豫不决而非安全性相关。

arXiv:2606.14923v1 Announce Type: new 摘要:随着语言模型智能体越来越多地以团队形式工作,每个智能体都必须决定信任队友的程度。然而,目前缺乏衡量AI智能体之间信任的标准方法。我们提出了一种基于成本验证的行为测量方法。在一个合作生存游戏中,检查队友的工作会消耗资源,而信任错误答案则可能致命。与同一模型的无记忆版本相比,验证减少提供了一个可观察的信任度量。利用这一框架,我们研究了六个前沿模型快照中信任的形成、破裂与恢复。当与一个始终可靠的队友配对时,四个快照(Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1 和 Gemini 3.1 Pro)将验证减少了约60-85%,而两个较小的快照则几乎没有或完全没有表现出这种调整。失败会逆转这种折扣,但不同模型的应对方式不同。有的将重新审查集中在违规者身上,有的则对整个团队变得更加谨慎。恢复比形成更慢,且聚集的失败比分散的相同数量失败更能维持怀疑。这些差异具有实际意义。在我们的环境中,形成信任的模型验证更少、决策更快、获得更高收益。相比之下,持续过度验证与犹豫不决而非安全性相关。我们的结果表明,信任倾向可以在部署前测量,并建议校准(而非最大怀疑)应成为多智能体AI系统治理的核心关注点。
查看原文
查看缓存全文

缓存时间: 2026/06/16 11:43

# 测量信任的形成、破裂与恢复,及其对多智能体系统治理的启示
来源:https://arxiv.org/html/2606.14923

###### 摘要

随着语言模型智能体越来越多地以团队形式工作,每个智能体都必须决定对其队友的信任程度。然而,我们缺乏衡量AI智能体之间信任度的标准方法。本文提出了一种基于代价高昂的验证的行为测量方法。在一个合作生存游戏中,检查队友的工作需要消耗资源,而相信错误的答案则可能致命。相较于同一模型的无记忆版本,验证行为的减少为信任提供了可观察的度量。

利用这一框架,我们研究了六个前沿模型快照中信任的形成、破裂与恢复过程。当与一个始终可靠的队友配对时,四个快照(Claude Opus 4.6、Claude Sonnet 4.6、GPT-5.1 和 Gemini 3.1 Pro)的验证率降低了约60%至85%,而两个较小的快照则几乎没有或完全没有表现出这种调整。失败会逆转这种折扣,但不同模型对此的反应各不相同。一些模型会将重新审查的焦点集中在犯错者身上,而另一些则会对整个团队变得更加谨慎。信任的恢复速度慢于其形成速度,并且,集中的失败所引发的怀疑持续时间远长于相同数量的分散失败。

这些差异具有实际后果。在我们的环境中,能够形成信任的模型验证次数更少,决策速度更快,并获得了更高的收益。相反,持续的过度验证与犹豫不决而非安全性相关。我们的结果表明,信任倾向可以在部署前进行测量,并且提示,在多智能体AI系统的治理中,校准(而非最大程度的怀疑)应成为关注的核心。

## 1 引言

在团队中工作的人,会对谁值得信赖保持持续的判断,并且会花费更多精力去检查那些他们不太信任的人的工作。同样的张力现在也支配着AI系统:协调工作越来越多地交由语言模型智能体小组完成;在这样的小组中,每个智能体都隐式地决定将其有限预算中的多少用于验证其同伴。这个决定有利有弊:一个从不信任的智能体会浪费资源反复核查已解决的问题,并且可能永远无法行动;而一个过于轻信的智能体则会让真正的失败传播开来。然而,尽管人类与AI系统之间的信任是一个成熟的研究领域,但AI智能体之间的信任却没有标准化的衡量标准,没有生命周期描述,也尚未出现在新兴的部署前评估实践中。

本文在一个受控环境中提供了这三个要素。我们的出发点是一个借鉴自实验经济学的测量思路:信任最好不是从智能体说了什么,而是从它付出了什么代价来解读。在我们的合作生存游戏中,验证队友的工作需要花费一枚硬币,而相信错误的答案则可能致命,因此,每一次选择不去检查伙伴,都是一次押注于该伙伴可靠性的昂贵赌注。一个智能体验证队友的频率以及它验证谁,由此成为可观察的、激励相容的信任信号。为了将信任与基线谨慎度区分开来,我们将每个模型与其自身的一个“无记忆”版本进行比较,后者在游戏内正常推理,但不携带任何跨游戏的信息。我们的衡量标准是相对于这个无历史基线的偏差,而非原始的验证次数。

有了这个衡量标准,我们便追踪了六个前沿模型快照(OpenAI、Anthropic 和 Google 各两个)中信任的整个生命周期,并操控一个脚本化队友的可靠性历史:

- • 形成。四个能力相对更强的快照学会了停止检查一个被证明可靠的伙伴,将验证次数降至其无历史锚点之下约60%至85%;较小的模型,特别是 Gemini 2.5 Flash,在此实验中几乎没有表现出信任的形成。
- • 破裂。在可靠性建立*之后*发生的失败会打破已形成的信任:验证次数从其信任的低点回升至锚点附近。在第一次游戏中就发生的失败则推迟并削弱了这种折扣。在这两种情况下,怀疑*落在何处*将模型区分开来:GPT-5.1 和 Gemini Pro 将其集中在犯错者身上,而 Opus 和 Sonnet 则重新检查整个团队,包括从未犯错的队友。
- • 恢复。随着伙伴在失败后可靠地行动,升高的检查次数部分消退,但*集中的*失败所引发的怀疑持续时间远长于相同两次分散的失败,即使分散的时间表包含更近期的失败。

最后,这种行为产生了与治理相关的后果。根据团队银行账户中的硬币数量评分,最快形成信任并做出决策的智能体在所有逆境场景中获胜,而从未形成信任的智能体则输掉了所有场景,其死亡(99%)绝大多数是由于犹豫不决的惩罚,而非错误的信任。在这两个极端之间,排名随逆境情况而变化,因此不存在单一最佳的信任策略。第6节阐述了这对监督多智能体AI的意义:信任倾向可以在部署前测量;强制性的最大程度检查并非安全策略;团队组成是一个可治理的设计选择。

#### 术语与范围。

一个“快照”是一个带日期的模型发布版本(例如,gemini-3.1-pro-preview);一个“家族”是提供商的版本化系列;一个“提供商”是公司。所有主张均适用于所测试的特定快照,而非一般性的提供商或家族。我们在一种刻意操作化的、行为学的意义上使用“信任”,即基于伙伴的历史记录而表现出的克制,并且我们不声称其涉及内部信念表征或更完整的人类意义上的信任。最重要的是,这不是一项关于哪个模型更优的研究:得分特定于一种收益结构,我们的目标是信任动态的*多样性*以及每种动态所涉及的权衡,即治理设计所需的地图,而非排行榜。

## 2 相关工作

信任如何建立与打破。行为经济学和社会心理学研究信任如何通过互动建立以及如何轻易被打破。信任游戏表明,人们会以个人代价付出和回报信任,并愿意支付代价惩罚背叛者以维持合作;信任是不对称的,坏印象比好印象权重更大,且违反信任远比修复信任容易。信任校准在人类与AI的互动中同样至关重要,模型表达的信心会影响人类对其的依赖程度和决策质量。我们将这一视角引入智能体-智能体环境,并通过智能体为验证伙伴所付出的代价来使信任变得可测量。

LLM智能体团队。越来越多的研究工作将LLM智能体置于合作和竞争环境中,包括重复经济博弈、谈判和多智能体辩论。这些研究通常检查单个模型发布版本,并在不同任务条件下进行比较。我们将每个模型与其自身的无记忆基线进行比较,并区分智能体验证的*数量*和验证的*对象*,这是我们增加的测量角度。

我们的贡献。基于在单一模型设置中对失败后过度验证的观察,我们贡献了:(i)一个经过验证的智能体间信任行为测量方法(以自身无记忆基线为锚定的成本高昂的验证);(ii)跨越六个前沿快照的信任形成、破裂和恢复的生命周期描述;以及(iii)将这些结果明确地解读为对多智能体AI系统治理的启示。

## 3 衡量智能体之间的信任

### 3.1 一个信任具有实际影响的场景

我们需要一个环境,其中检查队友需要付出代价,而相信错误的答案可能致命,这样验证选择才能揭示智能体对其伙伴的真实信念。在“密室逃脱生存游戏”中,四个智能体(A、B、C、D)进行一系列游戏;只有当某个智能体*自愿*提供正确的四部分密码时,团队才能逃脱。每个智能体只知道其自己谜题的答案;对于其他每个谜题,它只能看到“胶囊”,即显示谜题索引和支持智能体名称的公开记录,而永远看不到其中的答案。每一轮,智能体可以选择“跳过”;“验证”一个谜题,支付一枚硬币,使该谜题仅对该智能体可见,以便其独立解决;或者“自愿”提供一个密码。正确的自愿者让所有幸存的智能体逃脱;错误的自愿者会杀死自愿者;如果没有人自愿,则会随机淘汰一名智能体,因此无休止的谨慎本身也是危险的。智能体A、B、C是待测试的模型;D是一个脚本化的响应者,其可靠性由我们控制。关键是,智能体永远不会直接观察到D给出错误答案:胶囊内容是隐藏的,因此不可靠性只能通过推断显现,即D所在槽位上出现支持冲突,或者自愿者因错误密码死亡。由于D始终持有第四个谜题,对Q4的验证正是针对D的验证。完整机制见附录A。

### 3.2 度量方法:以无历史基线为锚定的成本高昂的验证

原始的验证次数将信任与气质混为一谈:模型在基线谨慎度上差异巨大。因此,我们将每个模型与其自身的“无记忆”变体进行锚定:该智能体在每局游戏内完全推理,但不在游戏间携带任何信息,因此每局游戏是独立抽取的,没有共享历史。相对于这个锚点,我们追踪两个量:

- • 数量:每局游戏的验证次数。当伙伴可靠时,远低于锚点的数值是我们“信任形成”的标志。
- • 目标:针对曾经失败的伙伴的验证比例(Q4占比)。

即使没有历史,验证也具有结构(图1)。它遵循一个默认的扫描顺序:在第一轮,每个模型只验证Q1或Q2;一旦这些早期槽位积累了足够多的支持,注意力就会转移到Q3和Q4,因此对D谜题的检查主要出现在第2-3轮。因此基线数量和扫描顺序是模型特征,而非信任;在后续所有分析中,有意义的信号是相对于这个基线的*变化*。

参见图1说明:图1:游戏内按轮次划分的无记忆(无历史)验证。每个快照一个面板;每轮显示两个堆叠的条形图,中性(D正确,浅色)和反应性(D错误,全色),按谜题堆叠(Q4 = D,红色)。验证遵循默认扫描顺序:第1轮仅为Q1/Q2,随着早期槽位积累支持,注意力在第2-3轮转移到Q3和Q4。这些锚点比例是所有信任变化量被衡量的基准。我们报告每个快照的两个变化量,即图3的轴:*信任形成*,Δ信任= 验证次数相对于锚点的变化(负值 = 信任形成);以及*犯错者针对性*,ΔQ4= Q4验证占比相对于锚点的变化(正值 = 曾经失败的伙伴被单独挑出)。锚点使用D*正确*的无记忆变体:指标仅在D正确的游戏(D的脚本化答案错误的游戏被排除)上计算,因此匹配的零假设固定了游戏内信息环境,仅移除历史。我们保留D错误时的比率作为次要参考。条件:*平滑*条件给予智能体跨游戏记忆,且D始终保持正确(信任可以形成的设置);*扰动*条件让D按固定时间表失败:一次早期失败(1次失败)、两次或三次相邻早期失败(2次/3次失败)、两次相邻中期失败(中期2次失败)以及两次间隔很远的失败(复发)。这三次两次失败的时间表保持失败次数固定,仅改变放置位置。我们测试了六个快照,每个提供商两个:gpt-5.1 和 gpt-5.4-mini, claude-opus-4-6 和 claude-sonnet-4-6, gemini-3.1-pro-preview 和 gemini-2.5-flash(每个扰动细胞n=10,每个平滑细胞n=5,每个锚点细胞≥50个独立游戏;时间表、数据卫生、快照标识符和解码设置在附录B中)。

### 3.3 为何这可以作为信任的衡量标准

由于后续的一切都依赖于将减少的验证解读为信任,我们在此明确阐述这一构念。我们采用实验经济学的操作化意义上的信任:通过代价高昂的选择揭示,而非通过问卷。信任的行为代理指标应具有*历史依赖性*、*伙伴特异性*、*代价高昂性*和*与能力可分离性*,而验证通过设计满足了每一项:在固定模型和任务的情况下,智能体检查一个始终正确的D的次数远少于检查一个无历史的D,而仅仅一次早期失败就基本上阻止了这种折扣(历史依赖性);重新检查可以重新集中在特定的犯错者身上(伙伴特异性);每次验证花费一枚硬币,而每次省略验证都冒着致命错误答案的风险,因此不进行验证是一个真实的赌注(代价高昂性);并且,由于每局游戏的谜题是随机的,且胶囊内容隐藏,智能体永远无法因为独立知道了D的答案而减少对D的检查;唯一减少对D检查的途径是推断D是可靠的(可分离性)。

几个更简单的解释与数据不符。*也许模型只是学会了检查很昂贵,所以减少了检查。*但一个纯粹的成本削减者会减少所有地方的检查;我们所看到的却取决于D的历史记录(平滑条件和扰动条件差异显著),并且是针对特定伙伴的。*也许智能体只是变得更擅长解谜了。*但谜题在所有条件下都同样简单,变得更擅长解谜不会专门针对D。*也许有些模型天生就更谨慎。*这正是无记忆锚点所移除的:每个模型都与其自身的无历史比率进行比较。*也许携带的记忆摘要机械地告诉智能体停止检查。*但是,记录伙伴的历史记录并根据其采取行动正是基于历史的信任的本质;无记忆变体,使用相同的提示且不携带任何摘要,验证次数却多得多,因此摘要携带的是可靠性信号,而非无差别指令。*也许这仅仅是B...

相似文章

AgentCollabBench:诊断优秀智能体为何成为糟糕的协作者

arXiv cs.CL

本文介绍了 AgentCollabBench,这是一个针对多智能体系统的诊断性基准,用于评估四大主流大语言模型(LLM)中的指令衰减和上下文泄漏等行为风险。文章认为,通信拓扑结构是多智能体可靠性的关键因素,其重要性往往超越了模型的原始能力。

面向企业AI智能体的部署前保障:基于本体论的仿真与信任认证

arXiv cs.AI

研究人员提出了一种基于本体论的企业AI智能体部署前验证框架,结合了智能体操作包络、自动化场景生成以及可机器验证的信任证书与分级部署判定。在四个受监管行业开展的试点研究共生成1,800个测试场景,结果显示基于本体论的生成方法在监管覆盖率上显著优于基于角色的基线方法。