何时应条件性地信任智能体?刻画并攻击智能体群中的技能条件声誉
摘要
本文研究了异构LLM智能体群中的技能条件信任,表明在特定场景下使用基于技能的信任分数优于全局分数,但也揭示了声誉清洗攻击的脆弱性。作者引入条件信息价值检验(CIVT)来检测此类攻击并量化权衡。
arXiv:2606.14200v1 公告类型:新
摘要:开放平台越来越多地将任务路由给异构的LLM智能体——它们在基础模型、脚手架和工具栈方面各不相同——其能力随技能差异悬殊:一个在某种技能上出色的智能体可能在另一种技能上毫无用处。标准的声誉方法为每个智能体汇总一个单一的全局信任分数,但这里的标量是不合适的,因为将每个任务路由给全局最受信任的智能体会使得专业化的价值无法体现。我们研究技能条件信任 R(i | k)——对智能体i在执行需要技能k的任务时应赋予的信任,而非每个智能体一个分数——并提出了三个可证伪的问题:何时值得进行条件化、应借用多少跨技能证据,以及这种借用是否安全。受控的相图分析回答了前两个问题:条件信任仅在特定情况下胜出——高智能体异构性、每个技能证据稀疏且技能相关——而这种数据效率所依赖的耦合强度beta具有双重用途,因为同样的跨技能借用也是一个清洗渠道。在由14个真正异构的AppWorld智能体组成的公共基准测试上,实际池落入有益区域——虽小但真实的增益,且每个技能的最佳智能体在不同技能间确实发生变化。然后我们展示,一个在一种技能上有廉价证据而在目标技能上无证据的攻击者劫持了条件路由器,将路由遗憾从0驱动到0.94(在我们的零成本条件信息价值检验(CIVT)评级为绿色的池中)——而其污染的无门控信任评分读数为-0.06,而不是诚实的+0.19。零证据门控可以限制攻击但无法消除;我们描述了在明确预算下的残余成本。我们不声称能抵抗女巫攻击——我们量化了权衡。
查看缓存全文
缓存时间: 2026/06/15 09:11
# 代理信任何时应是有条件的?——表征与攻击代理群中的技能条件声誉
来源:https://arxiv.org/html/2606.14200
王涛涛
深圳大学,中国
ttwang@szu\.edu\.cn
通讯作者。
###### 摘要
开放平台越来越多地将任务路由给异构的LLM代理——它们在基础模型、框架和工具栈上各不相同——其能力因技能而异:一个代理在某项技能上表现出色,在另一项技能上可能毫无用处。标准的声誉方法用单一的全局信任分数概括每个代理,但这个标量在这里是错误的对象,因为将每个任务都路由给全局最受信任的代理会放弃专业化的价值。我们研究*技能条件信任* \(R(i \mid k)\) —— 对于需要技能 \(k\) 的任务,应赋予代理 \(i\) 的信任——而不是每个代理一个分数,并提出了三个可证伪的问题:*何时*条件化是值得的,*多少*跨技能证据应该被借用,以及*是否*这种借用是安全的。一个受控的相图分析回答了前两个问题:条件信任仅在特定区域中获胜——高代理异质性、稀疏的每技能证据以及相关的技能——而实现这种数据效率的耦合强度 \(\beta\) 是*双重用途*的,因为相同的跨技能借用也是一个洗白渠道。在一个包含14个真正异构的AppWorld代理的公共基准测试中,真实池落入了有益区域——虽小但真实的增益,且每技能最佳代理在不同技能间确实发生变化。然后我们展示,一个在某一技能上有廉价证据而在目标技能上没有证据的攻击者劫持了条件路由器,在一个我们零成本的条件信息价值测试(CIVT)评为绿色的池上,将路由遗憾从0驱动到0.94——而它污染的非门控信任裁决读数为 \(-0.06\),而非诚实的 \(+0.19\)。零证据门限可以约束攻击但无法消除它;我们描述了在显式预算下的剩余成本。我们*不*声称抗女巫攻击——我们量化了权衡。
**关键词:** 多代理系统,LLM代理,信任与声誉,任务路由,对抗鲁棒性,声誉洗白,稀疏下的估计
## 1 引言
开放平台越来越多地被*异构的LLM代理*所填充,这些代理作为服务提供——每个都是基础模型、框架和工具栈的独特组合——并且关于代理间委托和信任的标准已经在围绕它们起草[Hu and Rong (2025)](https://arxiv.org/html/2606.14200#bib.bib7);[Yu et al. (2025)](https://arxiv.org/html/2606.14200#bib.bib27)。一个编排者必须决定为每个到来的任务信任哪个代理。这种信任的主流方法,继承自在线市场和点对点网络的声誉系统[Kamvar et al. (2003)](https://arxiv.org/html/2606.14200#bib.bib10),用*单一全局分数*总结每个参与者:系统整体上应该信任他们多少。当参与者的可信度是一维时,这个标量是完全正确的。但这些代理并非均匀优秀,*哪个*最佳取决于任务——模型和代理路由系统已经利用这种规律性来权衡成本与质量[Ong et al. (2024)](https://arxiv.org/html/2606.14200#bib.bib15);[Moslem and Kelleher (2026)](https://arxiv.org/html/2606.14200#bib.bib14)。在公共AppWorld基准[Trivedi et al. (2024)](https://arxiv.org/html/2606.14200#bib.bib21)上,我们研究(§5)发现,在*电话*任务上最佳的代理(GPT-4 Turbo上的IPFunCall框架)并非在*venmo*支付上最佳的代理(GPT-4o上的PlanExec框架),这也不是在*spotify*上最佳的代理(GPT-4o上的FullCodeRefl)。单一的全局信任分数隐含地假设代理在所有任务上是一致的可信;对于技能专业化的代理,这个假设根本不成立,将每个任务路由给全局最受信任的代理会放弃专业化的价值。
因此,我们询问信任*对象*本身是否应该是*有条件的*:不是每个代理一个分数,而是每个代理*每项技能*一个分数——\(R(i \mid k)\),当任务需要技能 \(k\) 时赋予代理 \(i\) 的信任。困难在于每技能证据是稀疏的——一个代理可能在任何给定技能上只运行过少数几轮——因此朴素的每技能估计噪声太大,无法用于路由。自然的补救措施是*借用*相关技能之间的证据:一个代理在相关技能上的记录对于它很少尝试的技能是有信息量的——一个在*venmo*支付上可靠的代理对于密切相关的*splitwise*是一个合理的先验,即使直接splitwise的回合很少。这种跨相关单元格借力是经验贝叶斯收缩的经典方差减少逻辑[James and Stein (1961)](https://arxiv.org/html/2606.14200#bib.bib8);[Efron and Morris (1977)](https://arxiv.org/html/2606.14200#bib.bib4),也是经典声誉系统用来应对稀疏直接证据的相同手法——沿着相关图进行结构化借用,这里应用于代理–技能轴而非对等图(§3.1)。
#### 问题,尖锐化。
人们很容易在这里停下来断言“条件信任一定更好”。事实并非如此。早期的尝试——包括我们自己的——声称条件路由的普遍优越性经不起推敲:当代理*不*专业化时,或者当每技能证据充足时,单一的全局最佳代理确实难以击败,而跨技能借用甚至可能注入有害偏差。因此,我们将贡献从*倡导*重新框架为*表征*,并问三个可证伪的问题:何时根据任务的技能进行条件化能击败单一的全局最佳代理;当每技能数据稀疏时,应该借用*多少*跨技能证据;以及*是否*这种借用打开了攻击面。第三个问题不是事后考虑:实现数据效率的机制——由耦合强度 \(\beta\) 调节的跨技能证据借用——结果是一个声誉洗白渠道,呼应了增加代理间信任可以扩大攻击面而不仅仅是改善协作的观点[Xu et al. (2025)](https://arxiv.org/html/2606.14200#bib.bib23);[Prakash (2026)](https://arxiv.org/html/2606.14200#bib.bib18)。*借用多少*和*是否安全*因此是一个旋钮的两个面。这种测量优先、机制随后攻击的立场是诚实的,并且我们认为,是更持久的贡献。
#### 我们的发现。
三个答案比框架所承诺的更为尖锐。*何时*:条件化仅在特定区域中有帮助——高异质性、稀疏的每技能证据以及相关的技能——而一个零成本的测试(CIVT)在运行任何模型之前就从现有日志中读出给定池是否位于该区域内;真实的公共池恰好落在内部,收益虽小但真实。*多少*:借用力有一个受限的最优值,因为将其推过 \(\beta \approx 0.1\) 几乎不增加准确性,同时却扩大了洗白渠道。*是否安全*:这里的结果令人担忧。在一个CIVT*认证*为具有真实条件价值的池上,一个在某一廉价技能上拥有完美证据而在目标技能上*无*证据的攻击者,以制造单个虚构回合的代价劫持了路由器,将路由遗憾从0驱动到0.94(§6);同样的污染使防御者从诚实的 \(+0.19\)(“条件化显然值得”)读到的信任裁决翻转为 \(-0.06\)(“条件化有害”)。本应起作用的防御使情况更糟:在良性池上优雅避免过度借用的自适应耦合正好利用了攻击者利用的相关性,因此在低技能相关性下的鲁棒性*反转*为高相关性下的脆弱性。速率限制和耦合上限在代数上也无能为力;只有一条结构性规则——拒绝为没有直接目标证据的代理借用——能约束攻击,即使这样也可以以我们量化的代价绕过(§6.2)。
#### 贡献。
我们通过四个步骤回答这三个问题——形式化对象,绘制何时以及多少进行条件化的图谱,将真实数据放置在该图谱上,然后将借用机制反转为攻击:
1. 一个技能条件信任对象 \(R(i \mid k)\),带有理想化的路由器(\(\pi_{\mathsf{global}}, \pi_{\mathsf{skill}}, \pi_{\mathsf{oracle}}\))和一个零成本的风险化解测试(CIVT),仅从现有日志就能判断技能条件化是否具有价值(§3)。
2. 关于何时/多少/是否的相图(§4):条件化仅在高度异质性H + 稀疏证据N + 相关技能C下获胜;借用强度 \(\beta\) 有一个*受限*的最优值,因为借用渠道是双重用途的;耦合必须*自适应地估计*,而非假设。
3. 真实数据定位(§5):在14个异构的公共AppWorld代理上,真实池落在有益区域(在连续和二元结果上均验证);在五个着陆点上,条件化增益随技能相关性C变化,正如相图所预测,且CIVT*区分*——在test_normal上为绿色,在更难的test_challenge上为琥珀色——而不是橡皮图章式批准。
4. 对抗分析(§6):跨技能洗白在小的 \(\beta\) 下就能劫持条件路由器;我们给出了一个预算威胁模型以及限制(而非消除)攻击收益的防御。
## 2 相关工作
我们的工作处于四条线索的交汇处:我们所背离的声誉范式(及其经典的Sybil/洗白攻击,我们进行了专门化);LLM代理路由,我们为其增加了对抗信任维度;新兴的代理信任与安全文献,我们使其*定量化*;以及经典的收缩估计,我们将其重新解读为安全旋钮。我们依次与每一个进行定位。
#### 谱声誉聚合及其经典攻击。
将归一化邻接矩阵幂迭代至其主特征向量是在开放图中对参与者进行排名的规范方法:PageRank将其应用于网页权威性[Page et al. (1999)](https://arxiv.org/html/2606.14200#bib.bib17),EigenTrust应用于点对点声誉[Kamvar et al. (2003)](https://arxiv.org/html/2606.14200#bib.bib10),此后的大量工作研究该方法的鲁棒性、其预信任/阻尼防御以及个性化或上下文感知的变体。该家族的共同点是它产生的*对象*:每个参与者一个单一的标量分数(在个性化变体中,每个*评估者*一个)。经典威胁模型是女巫攻击[Douceur (2002)](https://arxiv.org/html/2606.14200#bib.bib3)——伪造多个身份以胜过诚实参与者——以及廉价假名或*洗白*问题[Friedman and Resnick (2001)](https://arxiv.org/html/2606.14200#bib.bib5),通过重新注册来抛弃不良历史。这两者在开放系统中都已被证明难以消除:[Cheng and Friedman (2005)](https://arxiv.org/html/2606.14200#bib.bib2)证明*没有*对称声誉函数——包括PageRank风格的分数——能够是女巫证明的,因此每个此类机制都允许有益的女巫攻击。这正是经典防御是*预算*式的确切原因——限制而非消除危害——如SybilGuard和SybilLimit中的社交网络准入控制[Yu et al. (2006, 2008)](https://arxiv.org/html/2606.14200#bib.bib25)。我们的分歧在于条件化的*轴*,而非聚合规则:我们使信任对象依赖于*任务的技能*——信任哪个代理取决于被问的是什么——将单一全局分数恢复为无条件化的特例(§3.1)。我们的攻击(§6)相应地是跨技能声誉洗白变体的女巫/洗白攻击,并且我们继承了经典的不可能性——我们的防御在显式预算下限制攻击收益,但并非女巫证明。
#### LLM代理路由与模型选择。
近年来有大量文献在模型或代理之间路由查询以降低成本或提高质量:学习型成本路由器如RouteLLM[Ong et al. (2024)](https://arxiv.org/html/2606.14200#bib.bib15),削减成本的模型级联如FrugalGPT[Chen et al. (2023)](https://arxiv.org/html/2606.14200#bib.bib1),动态路由/级联系统综述于[Moslem and Kelleher (2026)](https://arxiv.org/html/2606.14200#bib.bib14),成本感知的交叉注意力路由器[Pulishetty et al. (2025)](https://arxiv.org/html/2606.14200#bib.bib19),以及在单个模型内路由的混合专家架构[Jiang et al. (2024)](https://arxiv.org/html/2606.14200#bib.bib9)。这条线很大程度上已从研究问题成熟为基础设施,它不是我们的竞争对手:它基于*成本*或*声称的能力*进行路由,假设候选代理是非策略性的,并预设一个可信的质量信号。我们研究这个预设所隐藏的先前问题——何时以及如何安全地,一个*信任*信号应该完全基于技能进行条件化。没有可靠、抗攻击的声誉信号,技能路由就是建在沙子上;我们描述该信号的价值及其对抗性限制,而不是提出一个更好的路由器。
#### 代理信任、声誉与安全。
随着“代理网络”开始部署,代理间的信任已成为一个活跃的关注点,最近的工作与我们的论点非常接近。面向行业的协议研究编目了新兴标准(A2A, AP2, ERC-8004)中的代理间信任机制[Hu and Rong (2025)](https://arxiv.org/html/2606.14200#bib.bib7),而综述绘制了可信LLM代理的威胁格局[Yu et al. (2025)](https://arxiv.org/html/2606.14200#bib.bib27)以及零信任代理架构[Liu et al. (2025)](https://arxiv.org/html/2606.14200#bib.bib12);这些确立了抗攻击的代理声誉是一个真实、已部署的开放问题,但停留在框架层面。有两篇论文足够接近,需要尖锐区分。[Prakash (2026)](https://arxiv.org/html/2606.14200#bib.bib18)识别出一个*出处悖论*:在多代理LLM委托中自我声称的质量将路由降至随机以下,其补救措施是协议级别的身份和委托合同证明。我们的洗白者严格来说更难防御,因为它不说谎:它持有在农场技能上的*真实*观察性能,并利用方程(1)的 \(\beta\) 耦合来污染目标估计——信号是真实且可证明的,*池化结构*是脆弱性,因此证明无法解决它。[Xu et al. (2025)](https://arxiv.org/html/2606.14200#bib.bib23)记录了一个*信任悖论*——参数化的代理间信任在改善协作的同时扩大了攻击面——他们的信任参数扮演了我们 \(\beta\) 的角色;但他们对信任的处理是未区分的信息暴露,而我们给出了一个*技能条件*结构,并用路由遗憾、条件化何时有益的相图以及受限攻击收益进行量化。在对象上最接近的是并发的去中心化信任提案。[Qi et al. (2025)](https://arxiv.org/html/2606.14200#bib.bib20)为每个代理配备了标量声誉旁边的每技能*能力向量*,并根据能力匹配任务,而[Wang et al. (2025)](https://arxiv.org/html/2606.14200#bib.bib22)则...相似文章
SkillJuror: 衡量技能组织如何改变运行时行为
本文介绍了SkillJuror,一个评估Agent技能的不同组织范式如何影响LLM Agent运行时行为的框架。对82个任务的研究表明,与扁平基线相比,渐进式披露(Progressive Disclosure)增加了资源多样性和采纳事件,且结果改善依赖于任务。
SkillMaster:迈向大语言模型智能体的自主技能掌握
本文介绍了 SkillMaster,一种训练框架,使大语言模型智能体能够通过轨迹知情审查和反事实效用评估,自主地创建、优化和选择技能。
自信的撒谎者:利用对数概率和LLM-as-Judge诊断多智能体辩论
本文研究了多智能体辩论系统中令牌级对数概率分布、LLM-as-judge评分标准分数和最终任务准确性之间的关系。它发现了一致的四阶段置信度轨迹以及Constructor与Auditor智能体之间的角色不对称性。
SkillGen:经过验证的推理时代理技能合成
本文介绍了 SkillGen,这是一个多智能体框架,通过对比成功和失败的轨迹来合成和验证可复用的推理时大语言模型(LLM)代理技能。该方法确保技能可审计,并通过实证验证其对代理性能具有净正面影响。
Skill-RM: 通过智能体技能统一异构评估标准
Skill-RM 提出了一种统一的奖励建模框架,将奖励计算视为结构化的智能体任务,实现了动态证据聚合和跨多种应用的一致评估,优于传统的评判基线。