当工具说了算:LLM代理盲目服从图神经网络工具,且更强的骨干模型服从得更彻底

arXiv cs.AI 论文

摘要

本文通过实验测试了配备GNN工具的LLM代理是行使判断力还是盲目服从工具,发现代理在97.6%–99.2%的情况下与GNN保持一致,且更强的骨干模型服从得更彻底。这种服从的代价并不会随能力提升而减少,选择性调用仍然是一个开放问题。

arXiv:2606.14476v1 公告类型:新论文 摘要:越来越多的研究工作为大型语言模型(LLM)代理配备图神经网络(GNN)作为可调用的工具,并假设代理能够判断何时以及多大程度上依赖此类工具。我们直接对此进行了测试。我们将一个冻结的GNN作为显式工具暴露给ReAct风格的LLM代理,并在文本属性图(ogbn-arxiv,在WikiCS上重复实验)的节点分类任务中衡量代理是否真正使用该工具,还是仅仅服从它。我们发现代理并未行使判断力:其预测与原始GNN在97.6%–99.2%的情况下一致(5个随机种子),沦为GNN的鹦鹉,完全照搬工具的输出,绕过了自身的推理。对骨干模型能力进行扫描(Qwen2.5 0.5B-7B),这种服从并非弱模型的产物:在能够调用工具的模型中,一致性随能力提升而上升(从1.5B的0.60到7B的0.98)。关键的是,服从的代价并未随能力增长而缩小,反而在替代方案出现时扩大:对于可用动作的每个节点级最优选择(oracle),在3B时比鹦鹉高出0.09-0.18,在7B时高出0.12-0.22,在高同质性下几乎翻倍,因为鹦鹉被绑定在冻结的GNN上,而代理的替代方案在改进;在7B时,简单的邻居标签工具在高同质性下超越了GNN(0.81对比0.71),但代理仍然服从。一个简单的选择性调用门控恢复了约一半的高同质性差距(0.71到0.83),但并未带来全局净收益,而保留估计表明,基于标准测试时特征的最佳可行门控最多只能达到最优选择(oracle)空间的三分之一:可靠的选择性调用似乎受限于可用信息,而不仅仅是路由器的设计。我们的结果是一个警示性测量:对代理+工具系统的评估不能假设代理在工具之上增加了判断力,选择性调用必须被设计进去,而非期望从规模中涌现。
查看原文
查看缓存全文

缓存时间: 2026/06/15 09:12

# 当工具决定一切:LLM智能体盲目遵从图神经网络工具,且骨干模型越强遵从越深  
来源:https://arxiv.org/html/2606.14476  

###### 摘要  

越来越多的研究给大语言模型(LLM)智能体配备图神经网络(GNN)及其他结构化预测模型作为可调用的工具,其隐含假设是智能体能够判断*何时*以及*多大程度*上依赖这类工具。我们直接检验了这一假设。我们将一个冻结的GNN作为显式工具(返回预测标签、异常分数和链接概率)暴露给ReAct风格的LLM智能体,并在文本属性图上的节点分类任务(ogbn-arxiv,以及WikiCS的复现)中测量:智能体是使用工具,还是仅仅服从它。我们发现,智能体并未表现出判断能力:其预测与原始GNN的预测一致性高达97.6%–99.2%(5个种子),即智能体退化成了“GNN鹦鹉”,全盘采用工具的输出,绕过自身的推理过程。对骨干模型能力(Qwen2.5 0.5B–7B)的扫描显示,这种服从并非弱模型的缺陷,能力提升也无法消除;在能够调用工具的模型中,一致性反而*随*能力*增加*(从1.5B的0.60到7B的0.98,5个种子)。关键在于,这种服从的*代价*在任何能力水平下都未见缩小,并且在替代方案出现时显著增长:每个节点选择最佳可用动作的完美基准比鹦鹉高出0.09–0.18(3B)和0.12–0.22(7B),在高同质性下几乎翻倍(0.12→0.22,所有5个配对种子均为正向),因为鹦鹉的准确率被冻结的GNN锁定,而智能体的替代方案随能力增强而提升:在7B时,简单的邻居标签查找工具在高同质性下超越了GNN(0.81 vs. 0.71),但智能体仍然服从GNN。一个简单的选择性调用门控在高同质性下恢复了约一半的差距(0.71→0.83),但在其他区域却造成损失,导致全局无净增益;此外,基于标准测试时特征的理想门控的最佳可实现性能仅能恢复约三分之一的基准提升空间(其余部分似乎无法从这些特征中恢复),因此可靠的选择性调用是一个开放问题,其限制似乎源于可用信息,而非仅仅路由器的设计。我们的结果对图-LLM-智能体和工具增强智能体领域提出了警示性测量:对“智能体++工具”系统的评估不能假设智能体在工具基础上增添了判断,而选择性调用必须进行设计,而非期望从规模中涌现。  

## 1 引言  

工具增强的LLM智能体越来越多地将学习模型作为黑盒工具调用。特别是在图设置中,近期系统赋予LLM智能体访问图操作和已学习图模型的能力,并报告了优于单独智能体的效果。这种设计的一个前提是,智能体扮演了*有辨别力的*调用者角色:它应在工具可信时咨询工具,否则回退到其他证据(文本、邻居结构、自身推理)。据我们所知,智能体是否真的如此行为尚未经过面对面的对比测量。我们提出了一个刻意狭窄、可证伪的问题:*当LLM智能体被赋予一个冻结的GNN作为显式工具时,它会将工具的输出作为一条证据来使用,还是仅仅服从它?* 我们将“服从”操作化为智能体最终答案与原始GNN预测之间的预测级*一致性*,并将服从的*代价*操作化为一个*基准差距*:在可用动作中,每个节点的最佳选择比智能体好多少。  

### 谁应该关注(受众)  

本文面向TMLR的两类子受众。  
(i) 构建图-LLM智能体或更广泛的、调用*已学习*预测模型的工具增强智能体的研究人员:我们的测量表明,一个常见的评估假设(智能体在工具之上贡献判断)可能完全失效,这改变了此类系统应如何进行消融和报告。  
(ii) 研究智能体行为如何随模型能力扩展的研究人员:我们报告了一个案例,其中理想行为(对工具持怀疑态度)并*没有*随规模出现,实际上反而呈现相反趋势。这两类受众都不需要方法本身新颖才能根据结果采取行动;他们需要的是充分的证据支持,这正是我们的关注点。  

### 贡献(作为证据,而非新颖性声明)  

- • 我们提供了证据,表明拥有冻结GNN工具的LLM智能体退化为“鹦鹉”:预测级与原始GNN的一致性在不同局部同质性区间内为0.976–0.992(第4节,表1),而与其自身无工具推理的一致性仅为0.17–0.37(7B;3B时为0.07–0.20)。  
- • 我们展示了这种服从并不因能力提升而消除:在Qwen2.5 0.5B–7B上,一旦模型能够使用工具(≥1.5B),与GNN的一致性*随*能力*增加*,从0.60上升到0.98(5个种子)(第5节,表2)。  
- • 我们展示了服从的*代价*在任何能力水平下都未见缩小,并且在替代方案出现时显著增长:每个节点的基准差距在3B时为0.09/0.18/0.12(低/中/高同质性),在7B时为0.12/0.18/0.22,在高同质性下几乎翻倍(所有5个配对种子均为正向,配对t=9.1),因为鹦鹉被冻结的GNN锁定,而替代方案在增强:在7B时,邻居标签工具在高同质性下超越了GNN(0.81 vs. 0.71),但智能体仍然服从(第6节,表3)。  
- • 我们展示了一个简单的选择性调用门控在其特征信息丰富时恢复了约一半的差距(高同质性下0.71→0.83,基准为0.93;所有5个种子均为正向),但在其他区域造成损失,导致全局无净增益(0.481→0.475),而一个学习到的四特征路由器表现并不更好。信息上限分析进一步明晰:两个保留估计器限定了基于标准测试时不确定性特征的*最佳可实现*门控最多只能恢复arxiv上基准提升空间的六分之一到三分之一(WikiCS上约为12–14%),其余部分似乎无法从这些特征中恢复(第7节)。因此,可靠的选择性调用看起来受限于可用信息,而不仅仅是路由器设计,仍然是一个开放问题。我们明确界定了范围(第9节):结果基于ogbn-arxiv并在WikiCS上复现(第8节),使用Qwen2.5系列;我们不声称数值可转移,但我们声称该失效模式存在且可在控制条件下复现。  

## 2 相关工作  

### 接触图的LLM智能体  

近期系统赋予智能体图原生文本操作(邻居查找、k跳检索)并报告了改进(Sun et al., 2026)。这些工具是文本型的;据我们所知,没有一个将*冻结的神经GNN*作为显式工具暴露给智能体,让其决定是否信任该工具的输出,而这正是我们测量的对象。我们的导航分支是故意最小化的邻居标签查找,借鉴了Sun et al. (2026)图原生操作的精神(但未复用其代码)。  

### LLM能否读取图结构?  

Xu et al. (2026) 在*非智能体*设置中显示,LLM从节点文本之外的结构编码中获益甚微。我们的问题不同:并不关心结构是否帮助LLM的输入,而是关心一个*智能体*在工具调用预算下是否会服从某个结构工具。我们包含了一个纯LLM分支以便与他们的结果建立联系。  

### 昂贵组件的选择性使用  

Loveland et al. (2025) 从GNN一侧学习*何时调用LLM*;我们研究镜像问题(智能体何时应该*不*调用/信任GNN),并发现智能体无法独立完成这一点。  

### 能力与编排  

Tran and Kiela (2026);Kim et al. (2026) 报告单个强模型在匹配预算下可以匹敌或超越多智能体编排,即协调增益随能力提高而缩小。我们观察到一个相关但不同的能力趋势,发生在单个智能体对工具的服从层面,并专门针对GNN作为工具的情况进行解析。  

### 工具过度依赖与工具信任(同期工作)  

一条同期研究报道了工具增强LLM的邻近失效模式:Cheng et al. (2026) 研究单次问答中的工具-记忆冲突(模型必须在工具答案与参数化知识之间仲裁);Zhang et al. (2026) 报告了警示性的“工具使用税”(工具增强智能体表现不如普通思维链),轻量级门控仅能部分恢复;Yin et al. (2026) 发现*强化*推理会放大工具幻觉,这是另一种能力恶化的趋势;Wang et al. (2026) 主张智能体仅在认识论必要的情况下调用工具,我们的测量为这一立场提供了图领域的证据。这些工作均未将一个冻结的*已学习预测模型*作为工具暴露在智能体循环内,并测量预测级的服从及其随骨干能力扩展的情况,而这正是我们的目标。尽管名称类似,GNN-as-Judge (Xu and Ding, 2026) 使用GNN反馈来过滤伪标签用于LLM微调(训练时协作),而非推理时可调用的GNN工具。  

## 3 实验设置  

### GNN作为工具的范式与分支  

一个GCN在任务上训练并*冻结*;它作为工具暴露给ReAct LLM智能体,绑定到查询节点,返回:(E) 预测标签及其置信度,(A) 重构异常分数,(L) 与邻居的链接概率。我们在匹配的每查询预算(5000提示++生成token和6次工具调用)下比较四个分支:  
A1: 智能体++GNN工具;  
A2: 智能体++一个最小化的图导航工具,借鉴Sun et al. (2026)的文本图操作风格:neighbors()返回最多k=10个邻居及其训练集标签(*没有暴露邻居文本*),degree()返回节点度数;  
A3: 单独的冻结GNN;  
A4: 无图工具的智能体(仅口头化节点文本)。  

### 数据与区间  

我们使用ogbn-arxiv,一个文本属性引文图(169k节点,40类),官方标题++摘要文本作为节点口头化。我们根据*局部同质性*(相同标签邻居的比例,基于真实标签)将测试节点分层为低(<0.3)、中([0.3, 0.7))、高(≥0.7);这仅作为分析维度,从不提供给智能体。  

### 骨干模型与协议  

Qwen2.5-Instruct 0.5B、1.5B、3B、7B,本地服务;智能体使用文本协议ReAct循环(正则解析ACTION/ANSWER行),受预算约束。两个协议事实对解释很重要,在此明确陈述而非隐藏:(i) 脚手架*指示*智能体在回答前咨询工具,因此工具*调用*是提示鼓励的;我们的测量是关于智能体如何处理返回的输出(采用还是权衡),而非关于它是否选择调用;第7节的选择性调用问题之所以在智能体*之外*提出,也是出于这个原因;(ii) 脚手架和指令为中文(Qwen2.5是中英双语;节点文本为英文),这在探测非Qwen骨干模型时很重要(第9节)。完整提示、解码参数、预算和回退规则见附录A。  

### 指标  

每个分支的准确率;*一致性* Pr[A1预测 = A3预测] 作为服从(鹦鹉)度量;*基准差距* acc(max{A1, A2, A4}) − acc(A1) 作为服从的代价(即每个节点选择最佳动作的完美选择器将比鹦鹉好多少)。差距非负(基准的动作集包含A1);其信息含量在于幅度。除非特别说明,7B数字为均值±标准误,基于5个种子(重新训练GNN ++ 重新采样节点),每bin 50个节点。种子固定GNN训练和节点采样;LLM解码采样(温度0.7)且不固定种子,因此单次运行数字包含解码噪声(附录A)。  

### 关于邻居标签分支(非泄露)  

A2暴露邻居的*训练*标签(作为工具观测),从未暴露查询节点自身的测试标签;这是GNN训练所用的相同监督,因此A2在高同质性下的强度反映了训练信号(信息丰富的邻域上的标签投票)的合法使用,而非测试泄露。相反,其在低同质性下的弱点源于异配邻域中标签投票的固有缺陷;具有邻居*文本*访问的A2变体可能行为不同,留待未来工作。  

## 4 智能体鹦鹉学舌于GNN  

表1(7B)显示A1(智能体++GNN工具)在操作上与A3(原始GNN)无法区分:预测一致性在不同区间内为0.976–0.992。智能体大约调用工具一次并采用其标签。由于脚手架鼓励工具使用(第3节),调用本身部分反映了遵从性;鹦鹉发现是关于调用*之后*发生的事情。两个观察使这一发现更加尖锐。第一,同一智能体的工具使用答案与其自身无工具推理(A4)仅在17–37%的时间内一致(7B;3B时为7–20%):工具一旦可用,几乎完全覆盖了智能体自身推理。第二,工具集暴露了*三个*信号作为单独调用(带置信度的预测标签;标记GNN可能出错的异常分数;链接概率),预算为6次调用,但在7B的83%查询中,智能体恰好只调用一次:它读取标签,从未探查那个本应用来标记标签不可信的信号。我们将这种崩溃称为“GNN鹦鹉”。  

表1:7B(Qwen2.5-7B),ogbn-arxiv,按局部同质性划分。均值±标准误,5个种子,每bin 50个节点。A1 ≈ A3(一致性列)是鹦鹉效应;基准差距是服从的代价。A2(邻居标签)在高同质性下超越GNN(且在中同质性下相当)。  

图1:7B,均值±标准误,5个种子。(a) 一致性(A1==A3)在不同局部同质性区间均接近1(鹦鹉效应)。(b) 基准差距(服从代价)均为正。  

## 5 能力加深服从  

表2扫描骨干能力。在0.5B时,模型完全无法可靠地使用工具(几乎不发出有效的工具调用;此处低一致性是无能力,而非怀疑)。从1.5B起,智能体确实调用工具,与GNN的一致性随能力*上升*,并且

相似文章

LLM代理已经知道何时调用工具——甚至无需推理

Hugging Face Daily Papers

本文介绍了When2Tool,一个研究LLM代理实际何时需要调用工具的基准,并揭示模型已从隐藏状态知道工具的必要性但未能采取行动。提出的Probe&Prefill方法将不必要的工具调用减少了48%,且精度损失极小。

GraphInfer-Bench:在图上的LLM推理能力基准测试

arXiv cs.LG

介绍了GraphInfer-Bench,这是一个基准测试,用于评估LLMs是否能够进行图推理——生成关于节点及其邻域的开放式答案,这些答案无法从单个节点或路径中检索到。实验表明,即使是最前沿的LLMs在这些任务上也落后于普通GNNs,揭示了一个能力差距。

多并非总是更好:大语言模型智能体搭建中的跨组件干扰

arXiv cs.AI

本文挑战了“向大语言模型智能体添加更多搭建组件总能提升性能”的假设,通过系统实验证明,跨组件干扰往往会导致性能下降。研究发现,在各种模型规模下,更简单、针对特定任务的组件子集通常优于配备齐全的“全能型”智能体。