多并非总是更好:大语言模型智能体搭建中的跨组件干扰

arXiv cs.AI 论文

摘要

本文挑战了“向大语言模型智能体添加更多搭建组件总能提升性能”的假设,通过系统实验证明,跨组件干扰往往会导致性能下降。研究发现,在各种模型规模下,更简单、针对特定任务的组件子集通常优于配备齐全的“全能型”智能体。

arXiv:2605.05716v1 公告类型:新论文 摘要:大语言模型智能体系统是通过堆叠搭建组件(规划、工具、记忆、自我反思、检索)构建的,其基本假设是“越多越好”。我们研究了跨组件干扰(CCI):当组件之间产生破坏性相互作用时导致的性能下降。我们在 HotpotQA 和 GSM8K 数据集上,使用 Llama-3.1-8B/70B 模型,对五个组件的所有 2^5=32 个子集进行了全析因实验(共 96 种条件,最多 10 个随机种子)。结果显示,“全能型”系统 consistently 表现非优:在 HotpotQA 上,单工具智能体的表现比全能型高出 32%(F1 值 0.233 对 0.177,p=0.023);在 GSM8K 上,一个包含三个组件的子集比全能型高出 79%(0.43 对 0.24,p=0.010)。最优组件数量具有任务依赖性(k*=1-4)且对模型规模敏感:在 70B 模型上,那些在 8B 模型上产生负面影响的组合反而带来了增益,尽管全能型系统仍然落后于最佳子集。我们拟合了主效应回归模型(R^2=0.916,调整后的 R^2=0.899,留一交叉验证 LOOCV=0.872),计算了精确的 Shapley 值,并发现 325 种组合中有 183 种违反了次模性(占比 56.3%),这表明贪心选择策略并不可靠。我们还报告了一种探索性的三体协同效应,涉及工具使用、自我反思和检索(INT_3=+0.175,95% 置信区间 [+0.003,+0.351])。跨组件干扰现象在 Qwen2.5 等不同模型家族中得以复现,并且对提示词改写具有鲁棒性。我们的研究结果表明,应通过基于交互分析的任务特定子集选择,来取代默认配备所有组件的智能体配置。
查看原文
查看缓存全文

缓存时间: 2026/05/08 08:39

# 大语言模型智能体脚手架中的跨组件干扰
来源:https://arxiv.org/html/2605.05716

## 更多并非总是更好:大语言模型智能体脚手架中的跨组件干扰

###### 摘要

大型语言模型(LLM)智能体系统通常是通过堆叠脚手架组件构建的——包括规划模块、工具接口、记忆、自我反思和检索——其假设是更多的组件能提升性能。我们通过一项关于跨组件干扰(Cross-Component Interference, CCI)的系统性实证研究挑战了这一假设:CCI指的是当脚手架组件以相互削弱的方式相互作用时所产生的性能退化。我们在两个基准测试(HotpotQA, GSM8K)上对五个标准智能体组件的所有 $2^5=32$ 个子集进行了全因子实验,涵盖了三个模型家族和五个规模(Llama-3.1-8B/70B, Qwen2.5-3B/7B, Claude Haiku 4.5),在主设置下产生了 118 个受控配置,每个配置使用最多 10 个随机种子。我们发现,在所有测试设置中,最佳真子集的性能均匹配或超过了包含全部五个组件的“All-In”系统:在 HotpotQA 上,单工具智能体比 All-In 系统高出 32%($F_1=0.233$ vs $0.177$,配对 t 检验 $p=0.023$,Wilcoxon 检验 $p=0.014$,Cohen's $d_z=0.87$,10 个种子);而在 GSM8K 上,一个三组件子集实现了比 All-In 系统高 79% 的准确率($0.43$ vs $0.24$, $p=0.010$)。最优组件数量是任务依赖的($k^*=1–4$)且对规模敏感:CCI 遵循能力梯度——在 8B 模型上显著(差距为 32%),在 70B 模型上减弱(差距为 19%),在 Claude Haiku 上趋于噪声水平(差距 $\approx 0\%$)——但在所有规模下,最简单的充足脚手架都能匹配或击败 All-In 智能体。为了刻画交互结构,我们拟合了一个主效应回归模型($R^2=0.916$,调整后的 $R^2=0.899$,LOOCV $R^2=0.872$),该模型显著优于 16 参数的两两交互模型($\Delta BIC=25.3$)。我们计算了精确的 Shapley 值,显示工具使用(Tool Use)捕获了脚手架总价值的 70%($\phi=+0.177, z=9.1$),而规划(Planning)具有**显著的负** Shapley 值。我们还记录了 325 个可测试三元组中的 183 次次模性违例($56.3\%$;中位数次模性比率 $\gamma_{\mathrm{med}}=0.52$,bootstrap 95% CI $[0.23,0.71]$,远低于次模性阈值 1)——其中 90% 的主要违例表现出符号翻转而非收益递减。我们在检索任务中识别出工具使用、自我反思和检索之间的高阶协同效应(Harsanyi 红利 $INT_3=+0.175$,BCa 95% CI: $[+0.004, +0.352]$),将其作为待多种子确认的探索性观察。方向性的 CCI 模式在模型家族间(Qwen2.5-3B/7B)可复现,并扩展至闭源 API 模型(通过 AWS Bedrock 使用的 Claude Haiku 4.5,定性模式——T 占主导,记忆有害,All-In 非最优——得以保留),且对模板改写具有鲁棒性。我们的发现表明,从业者默认配备最大数量组件的智能体应被取代,取而代之的是由交互感知分析告知的任务特定子集选择。

**更多并非总是更好:大语言模型智能体脚手架中的跨组件干扰**

Ming Liu
Amazon 数据科学家
[email protected]

## 1 引言

构建能力强大的 LLM 智能体的标准做法是*脚手架(scaffolding)*:在基础模型上增加规划模块、工具接口、工作记忆、思维链提示和自我反思循环(Yao et al., 2023; Shinn et al., 2023; Wang et al., 2023)。像 LangChain 这样的框架鼓励开发者自由组合这些组件,但并未提供关于应包含哪些子集的系统性指导。隐含的假设是*越多越好*。我们提供的证据表明,对于基于提示的脚手架,这一假设往往是错误的,而且是以一种特定的、可测量的和微妙的方式错误的。

考虑 Llama-3.1-8B 在 HotpotQA 多跳推理上的表现。在 10 个随机种子下,仅使用工具得分 $F_1=0.233$;而完整的五组件智能体得分 $F_1=0.177$——性能下降了 32%(配对 t 检验 $p=0.023$,Wilcoxon 符号秩检验 $p=0.014$,Cohen's $d_z=0.87$;贝叶斯:$BF_{10}=3.2$,差异的 95% HDI $[+0.010, +0.102]$)。我们将此称为*跨组件干扰(CCI)*:组件组合下负边际回报的操作现象。

但这个故事比“少即是多”更微妙。在 GSM8K 数学推理上,8B 模型的最佳配置使用*三个*组件($k^*=3$, 准确率 $=0.43$),而不是一个。在 HotpotQA 的 70B 规模下,向工具使用中添加组件是*有帮助*的——这与 8B 的模式相反——尽管全套组件($F_1=0.372$)仍落后于最佳子集($F_1=0.441$)19%。CCI 不是一条普遍的“越多越少”定律;它是一种任务和规模依赖的交互效应,在我们测试的每个设置中,全包含配置都劣于某个真子集。

#### 贡献。

1.  **全因子表征。** 我们在两个基准测试、三个模型家族和五个规模上评估了五个智能体组件的所有 32 个子集(118 个配置,超过 32,000 次评估),消除了选择偏差并揭示了完整的交互景观。(§4)
2.  **CCI 是普遍的、任务依赖的和规模敏感的。** 在 Llama-8B/HotpotQA(10 个种子)上,从最佳脚手架开始的每一次扩展都会降低性能——5/6 次在 $p<0.05$ 水平上显著(4/6 次通过 Holm-Bonferroni 校正;Cohen's $d=0.87–1.44$,均为大效应)。最优 $k^*$ 是任务依赖的(1 vs 3);在 70B 规模下,CCI 方向反转,但在测试的所有 6 个模型×基准条件下,最佳真子集均匹配或优于 All-In。(§5)
3.  **结构简约性和非次模性。** 一个 6 参数主效应模型解释了 91.6% 的方差(LOOCV $R^2=0.872$),显著优于 16 参数两两模型($\Delta BIC=25.3$)。Shapley 分解显示工具使用捕获了 70% 的脚手架价值,而规划显著为负。325 次次模性违例中的 183 次(中位数比率 $\gamma=0.52$,bootstrap CI $[0.23,0.71]$,低于次模性阈值)表现出符号翻转——孤立时有害的组件在特定组合中变得有益——使得贪婪选择在经验上不可靠。(§6)
4.  **鲁棒性和普适性。** CCI 在模型家族间(Qwen2.5)可复现,扩展至闭源 API 模型(Claude Haiku 4.5,其中定性模式得以保留,但 CCI 饱和至噪声水平),对模板改写具有鲁棒性(All-In 在 3 个变体中均非最优),且不是上下文长度的伪影(长度匹配控制:差距缩小至 6–9 倍)。(§7)

## 2 相关工作

#### LLM 智能体脚手架。

ReAct(Yao et al., 2023)交错推理和行动;Reflexion(Shinn et al., 2023)增加自我反思;Voyager(Wang et al., 2023)结合规划、技能记忆和自我验证。认知架构框架(Sumers et al., 2024)将多个此类组件组合成复杂的智能体。Kapoor 等人(2024)质疑复杂脚手架是否优于简单基线。这些工作展示了各个组件的价值,但没有系统地研究组件结合时的*交互效应*——充其量仅使用逐个消融实验,从未使用能揭示高阶交互的全因子设计。

#### 提示敏感性和优化。

LLM 对提示格式(Sclar et al., 2024)、信息位置(Liu et al., 2024; He et al., 2024)和改写措辞(Mizrahi et al., 2024)敏感。Battle 和 Gollapudi(2024)测试了 60 种系统消息组合,发现最佳提示依赖于模型大小。DSPy(Khattab et al., 2023)、OPRO(Yang et al., 2024)和 TextGrad(Yuksekgonul et al., 2024)自动优化提示,但将提示视为原子字符串,忽略了内部组件结构。我们的工作询问要激活哪个*组件组合*。

#### 指令干扰和容量限制。

最近的工作记录了随着约束数量增加,指令遵循能力下降(Wen et al., 2024; Jaroslawicz et al., 2025)。Qi 等人(2026)识别出“矛盾性干扰”,即添加格式约束会损害任务解决,归因于注意力从任务相关令牌转移。Li 等人(2025)表明思维链会降低指令遵循的准确性。这些工作观察到了目标之间的成对干扰,但每次只研究一种交互。我们提供了所有 $2^5$ 组件组合的完整*交互景观*。

#### 提示组件回归和交互模型。

与我们分析框架最相关的是,Lauziere 等人(2026)拟合了一个两两交互模型 $f(S)=c+\sum_i w_i s_i+\sum_{ij} J_{ij} s_i s_j$ 来研究提示组件对算术任务的影响,解释了 72–77% 的方差。我们采用相同的模型类——将耦合矩阵 $J$ 视为组件交互的紧凑、可解释摘要——但将其拟合到智能体脚手架配置而非通用提示特征。应用于我们的 32 个平均 $F_1$ 值(8B, HotpotQA),主效应模型达到 $R^2=0.916$(调整后的 $R^2=0.899$,LOOCV $R^2=0.872$);添加两两项后达到 $R^2=0.937$,但由于在 32 个数据点上使用 15 个参数导致过拟合,LOOCV $R^2$ 反而*降低*至 $0.748$。我们超越了 pairwise 项,识别出一个探索性的三体残差(Harsanyi 红利 $INT_3=+0.175$,BCa 95% CI: $[+0.004, +0.352]$),这无法仅从 pairwise 项中恢复。

#### Shapley 值和高阶交互。

Shapley 值已应用于提示级归因(Mohammadi, 2024)和上下文示例估值(Xie et al., 2024)。SHAP-IQ(Fumagalli et al., 2023)提供了一个统一框架来计算任意阶 Shapley 交互指数;HarsanyiNet(Chen et al., 2023)将不可约的 $k$ 路交互建立在 Harsanyi 红利之上。我们在*指令组件*级别应用这些概念:我们的五个脚手架组件允许在所有 $2^5=32$ 个联盟上进行精确计算而无需近似。

#### 规模依赖现象和非次模性。

Inverse Scaling Prize(McKenzie et al., 2023)记录了性能随规模扩大而恶化的任务。Huang 等人(2025)证明 LLM 集成选择是非次模的。我们发现 CCI 在 8B 和 70B 之间反转,这是规模依赖行为的新实例,而我们观察到的 183 次次模性违例表明,在该领域中贪婪组件选择是不可靠的。

## 3 问题设置

### 3.1 脚手架组件

我们研究现代智能体框架中存在的五个经典脚手架组件(Sumers et al., 2024):

- **规划(P):** 将任务分解为子目标的系统级指令。
- **工具使用(T):** 带有工具描述的函数调用接口。
- **记忆(M):** 跨步骤持久化观察的结构化工作记忆。
- **结构化推理(SR):** 思维链格式指令(Wei et al., 2022)。
- **反思(R):** 附加在每个步骤之后的自我评估提示。

这五个组件覆盖了语言智能体分类法中确定的主要功能模块(Sumers et al., 2024):剖析(P)、推理(T + SR)、记忆(M)和自我调节(SR + R)。一个*配置* $C \subseteq \{P,T,M,SR,R\}$ 是活跃组件的子集,其中 $K=\|C\|$。共有 $2^5=32$ 种可能的配置。$k$ 个二进制组件的全因子设计需要 $2^k$ 种配置;我们的 32 配置扫描已经代表了巨大的计算投入,每增加一个组件都会使这一成本翻倍。

### 3.2 CCI 定义

###### 定义 1(跨组件干扰)。

CCI 对于一对 $(C,s)$ 发生,其中 $s \notin C$,如果将 $s$ 添加到 $C$ 会降低性能:$\phi(C \cup \{s\}) < \phi(C)$。CCI 是一个*操作性*定义,描述了负边际回报的可观察现象,而不承诺特定的因果机制。如果它在 $2^5$ 格点中的许多 $(C,s)$ 对中成立,我们说 CCI 是*广泛的*。

###### 定义 2(最优组件数量)。

$k^* = \arg\max_K \max_{\|C\|=K} \phi(C)$。

### 3.3 实验协议

**模型。** Llama-3.1-8B-Instruct 和 Llama-3.1-70B-Instruct(Dubey et al., 2024),用于跨家族复现的 Qwen2.5-3B/7B-Instruct(Team, 2025),以及作为闭源 API 模型验证的通过 AWS Bedrock 使用的 Claude Haiku 4.5(Anthropic, 2024)。70B 模型使用 4-bit NF4 量化(Dettmers et al., 2023)。

**基准测试。** (1) HotpotQA(Yang et al., 2018)(令牌级 $F_1$),和 (2) GSM8K(Cobbe et al., 2021)(精确匹配准确率)。每个配置最多使用 4 个推理步骤。所有模型使用 temperature=$0.1$,top-$p$=$0.9$,每步最多 256 个新令牌。

**配置。** 我们的主要实验在每个基准测试的 100 个问题评估所有 32 个子集。我们在 HotpotQA 上的 10 个随机种子上复制关键配置(16,000 次评估)。总计:超过 32,000 次评估。

**统计方法。** 单种子结果报告 bootstrap 95% CI(2,000 次重采样)。多种子比较使用配对 t 检验,并通过非参数 Wilcoxon 符号秩检验确认;探索性比较使用 Benjami

相似文章

@rohanpaul_ai: 斯坦福新论文指出,在同等推理预算下,单个LLM通常比多个……更好地解决多跳问题

X AI KOLs Timeline

一项新的斯坦福论文显示,在同等推理token预算下,单个LLM在多跳推理任务上通常优于多智能体系统,而多智能体设置带来的提升往往来自更多计算而非架构优势。该论文利用数据处理不等式解释为什么交接中的信息丢失会损害多智能体性能,并指出上下文质量是多智能体系统能够提供益处的关键因素。

停止在不公开执行框架的情况下比较LLM智能体

arXiv cs.AI

这篇立场论文认为,在长期跨度的LLM智能体任务中,执行框架(即围绕语言模型的上下文构建、工具交互、编排和验证的基础设施层)往往比模型本身更能决定性能,而当前的基准测试错误地将框架层面的提升归因于模型改进。它提出了一种框架感知的评估框架,包含披露标准和方差分解协议。

LLM智能体系统中技能的规模化定律

arXiv cs.CL

本文识别了LLM智能体系统中技能库的两个耦合规模化定律:路由准确率随库大小呈对数衰减,执行动态表现出救援效应。这些定律在15个模型和超过百万次决策中得到验证,且定律指导的优化显著提升了性能。

不是能力问题:LLM智能体层级间的控制敏感度是非单调的

arXiv cs.AI

本文通过实证测试了“更结构化的控制(harness)能普遍提高LLM智能体可靠性”这一常见假设,发现不同模型层级间存在非单调关系。它引入了HEAT-24基准,并揭示了严格的控制可能会损害前沿聊天模型,但有利于推理模型。