Arbor:树搜索作为自主代理的认知层

arXiv cs.AI 论文

摘要

Arbor 引入了结构化树搜索作为自主代理的认知层,通过制衡多代理架构,实现多日、全栈 LLM 推理优化,相比供应商基线,吞吐量-延迟提升高达 193%。

arXiv:2606.12563v1 公告类型:新 摘要:Arbor 是一个多代理框架,引入了结构化树搜索作为在大型有状态动作空间中运行的自主代理的认知层。先前的自主优化系统在孤立目标上运行,采用无状态评估。而 Arbor 维护一个显式的得分假设搜索树,作为代理间的共享工作记忆,随每次测量而演化,将失败视为诊断信号以重塑后续探索,并随着先前成功改变瓶颈分布而扩展。 我们在全栈 LLM 推理优化上验证了 Arbor,这是一个历史上需要跨应用、框架、编译器、内核和硬件堆栈的工程团队协同努力才能达到峰值性能的领域。Arbor 将 Orchestrator 代理(通过委托推理堆栈中的领域专家来推动优化)与 Critic 代理(通过根因分析、内省和测量验证来维护稳定性)配对——这是一种制衡架构,两个代理都不能单方面驱动系统。代理能力分解为硬技能(领域专业知识)和软技能(决定贡献如何组合的协调协议),实现完全自主的多日行动。Arbor 在供应商优化的基线上实现了高达 193% 的推理吞吐量-延迟帕累托改进,而单个没有框架的代理在吞吐量提升 +33% 时达到平台期,并在数小时内不可恢复地崩溃。Arbor 可推广到多代硬件平台,运行间差异在 2 个百分点以内,表明该方法与硬件无关且可重复。
查看原文
查看缓存全文

缓存时间: 2026/06/12 08:52

# Arbor:树搜索作为自主智能体的认知层
来源:https://arxiv.org/html/2606.12563  
Neha Prakriya, Chaojun Hou, Zheng Gong, Huasha Zhao, Xi Zhao, Mou Li, Zhenyu Gu, Emad Barsoum  
训练与推理优化团队,AMD  
\{neha.prakriya, chaojun.hou, zheng.gong2, huasha.zhao,\} \{xi.zhao, mou.li, zhenyu.gu, emad.barsoum\}@amd.com

###### 摘要

Arbor 是一个多智能体框架,它将结构化的树搜索作为自主智能体在大型、有状态动作空间中的认知层。先前的自主优化系统在无状态评估中针对孤立目标运行。而 Arbor 维护一个明确的、由评分假设构成的搜索树,该树作为智能体间的共享工作记忆,随每次测量而演化,将失败视为重塑后续探索的诊断信号,并在先前成功改变瓶颈分布时进行扩展。

我们在全栈 LLM 推理优化上验证了 Arbor,这是一个领域,其中达到峰值性能历来需要应用程序、框架、编译器、内核和硬件栈中的工程团队协同努力。Arbor 配有一个 Orchestrator 智能体,它通过将优化任务委派给跨推理栈的 Domain Specialists 来驱动优化,以及一个 Critic 智能体,它通过根因分析、自省和测量验证来保障稳定性——这是一种制衡架构,其中任何一个智能体都不能单方面驱动系统。智能体能力被分解为硬技能(领域专长)和软技能(决定贡献如何组合的协调协议),从而支持完全自主的多日优化活动。Arbor 相比供应商优化的基线实现了高达 193% 的推理吞吐量-时延帕累托改进,而没有该框架的单个智能体则停滞在 +33% 的吞吐量改进,并在数小时内不可恢复地崩溃。Arbor 可泛化到多代硬件平台,运行间方差在 2 个百分点以内,表明该方法与硬件无关且可重复。

## 1 引言

基于 LLM 的代码优化近期进展表明,自主智能体可以为孤立计算目标发现高质量解决方案。AlphaEvolve(Novikov 等人,2025([https://arxiv.org/html/2606.12563#bib.bib6)](https://arxiv.org/html/2606.12563#bib.bib6)) 采用 LLM 引导的进化搜索来合成改进数据中心调度启发式和矩阵乘法过程的算法。AVO(Chen 等人,2026([https://arxiv.org/html/2606.12563#bib.bib7)](https://arxiv.org/html/2606.12563#bib.bib7)) 通过用自我导向的编码智能体替换预定义的变异算子来扩展这一范式,生成了在 NVIDIA Blackwell GPU 上超越 cuDNN 和 FlashAttention-4 吞吐量的注意力内核。多智能体变体如 KernelSkill(Sun 等人,2026([https://arxiv.org/html/2606.12563#bib.bib29)](https://arxiv.org/html/2606.12563#bib.bib29))、Astra(Wei 等人,2025([https://arxiv.org/html/2606.12563#bib.bib30)](https://arxiv.org/html/2606.12563#bib.bib30)) 和 AccelOpt(Zhang 等人,2026([https://arxiv.org/html/2606.12563#bib.bib31)](https://arxiv.org/html/2606.12563#bib.bib31)) 引入了角色专门化和优化内存用于 GPU 内核合成,但仍然局限于单个算子。

然而,生产软件系统的性能源于多个层的交互。例如,修复注意力模块中的分发路径可能会暴露底层内核缺乏针对模型头部维度特定形状的调优,这反过来又会触发资源压力条件,并在负载下表现为服务层回归。这一单次优化尝试跨越了三个不同的堆栈层,每一层在前一层解决之前都不可见,每一层都需要不同的干预专长,且每一层都可能使另一层取得的进展失效。现有方法不解决这种组合结构。编译器自动调优器(Chen 等人,2018([https://arxiv.org/html/2606.12563#bib.bib10)](https://arxiv.org/html/2606.12563#bib.bib10));Zheng 等人,2020([https://arxiv.org/html/2606.12563#bib.bib11)](https://arxiv.org/html/2606.12563#bib.bib11)) 在单层内搜索算子调度。多智能体编码框架(Dong 等人,2026([https://arxiv.org/html/2606.12563#bib.bib33)](https://arxiv.org/html/2606.12563#bib.bib33));Hong 等人,2024([https://arxiv.org/html/2606.12563#bib.bib26)](https://arxiv.org/html/2606.12563#bib.bib26)) 在智能体间分配子任务,但仍然针对单一目标。最接近我们设置的是 Yu 和 Ren (2026)([https://arxiv.org/html/2606.12563#bib.bib28),](https://arxiv.org/html/2606.12563#bib.bib28),) 他们将专门的 LLM 智能体分配给百万行 EDA 代码库中不重叠的子系统,但未跨子系统边界组合干预措施或跨层诊断故障。这些系统都不容忍跨层探索产生的级联故障,也不从这些故障中提取可复用的信号。

随着智能体被应用于日益复杂的系统,核心挑战从候选生成转向候选选择:在大型、有状态的动作空间中导航,其中每次干预都会重塑景观。当优化导致系统故障时,必须诊断故障,并且该诊断必须作为后续搜索的约束传播回去。当成功的干预将瓶颈转移到不同层时,搜索必须通过重新分析检测到这种转变,并扩展到先前不存在的动作空间区域。孤立目标优化系统并非为这些需求而设计。

我们提出 **Arbor**,一个将跨层性能优化形式化为在动态扩展的动作空间上进行的启发式评分树搜索的框架。Arbor 将优化状态维护为明确的搜索树:智能体通过分析识别所有堆栈层的瓶颈,构建候选干预的评分树,并进行深度优先探索,在每次测量后根据暴露的新瓶颈重塑树。回归触发自省,区分实现错误与根本无效的方向,当想法值得继续追求时,生成细化的子动作。崩溃触发根因分析,诊断故障机制并将其转化为约束,在此约束下可以重试优化。

对于运行数小时到数天的持续优化活动,Arbor 以有效工程组织团队的方式来组织其智能体。一个 Orchestrator——类似于技术负责人——通过委派给跨堆栈的 Domain Specialists(内核优化、框架调优、通信拓扑、编译器配置、算子分发)来驱动优化。一个 Critic——类似于质量保证职能——通过根因分析、自省和回归监控来保障稳定性和测量完整性。这两个智能体以制衡方式运作:Orchestrator 追求激进的性能收益,而 Critic 强制执行使多日会话可行的约束。它们的协作产生的成果是任何一个单独都无法实现的。智能体能力被分解为**硬技能**(每个智能体专长的领域)和**软技能**(它们如何协调:资源仲裁、专业边界处的委派、以及融入彼此的发现)。一个持久的知识库跨会话积累策略和故障模式,支持对新模型的热启动迁移。Arbor 有潜力降低现有 LLM 部署的运营成本和碳强度。它还可以降低将新硬件或模型投入生产的门槛。

我们在 AMD Instinct GPU(MI355X 和 MI300X)上对六种生产模型的 LLM 推理服务评估了 Arbor。我们的贡献是:

- • 我们将跨层性能优化形式化为在动态扩展的动作空间上的**有状态树搜索**,其中树作为智能体的共享工作记忆,故障作为子节点的约束传播,先前的成功触发重新分析,从而扩展搜索前沿。
- • 我们引入了一个具有明确**制衡**机制的多智能体架构:一个通过 Domain Specialists 驱动优化的 Orchestrator,以及一个保障稳定性和测量完整性的 Critic,确保激进的探索和保守的约束执行不会主导系统。
- • 我们将智能体能力分解为**硬技能**(领域专长)和**软技能**(协调协议),并由持久的知识库支持,实现跨会话的热启动迁移。
- • 在 MI355X 上的六种生产模型中,Arbor 在数天的完全自主运行中相比优化基线实现了 +40% 到 +193% 的吞吐量提升。在 MI300X 上的跨代验证(+62–99%)以及收敛在 2 个百分点以内的独立复现证实了可重复性。

## 2 相关工作

#### LLM 引导的代码优化。

FunSearch(Romera-Paredes 等人,2024([https://arxiv.org/html/2606.12563#bib.bib5)](https://arxiv.org/html/2606.12563#bib.bib5)) 引入了针对短函数的 LLM 引导进化搜索。AlphaEvolve(Novikov 等人,2025([https://arxiv.org/html/2606.12563#bib.bib6)](https://arxiv.org/html/2606.12563#bib.bib6)) 将其扩展到完整代码库,而 AVO(Chen 等人,2026([https://arxiv.org/html/2606.12563#bib.bib7)](https://arxiv.org/html/2606.12563#bib.bib7)) 用自主智能体循环替换了固定的进化管线,生成了在 Blackwell GPU 上超越 cuDNN 和 FlashAttention-4 的注意力内核。这些系统使用自包含评估优化孤立目标。Arbor 解决的是干预措施跨越整个软件栈且一层中的操作可能使另一层的工作失效的场景。

#### 多智能体内核优化。

KernelSkill(Sun 等人,2026([https://arxiv.org/html/2606.12563#bib.bib29)](https://arxiv.org/html/2606.12563#bib.bib29))、Astra(Wei 等人,2025([https://arxiv.org/html/2606.12563#bib.bib30)](https://arxiv.org/html/2606.12563#bib.bib30))、AccelOpt(Zhang 等人,2026([https://arxiv.org/html/2606.12563#bib.bib31)](https://arxiv.org/html/2606.12563#bib.bib31)) 和 STARK(Dong 等人,2026([https://arxiv.org/html/2606.12563#bib.bib33)](https://arxiv.org/html/2606.12563#bib.bib33)) 引入了 GPU 内核合成的角色专门化和持久优化记忆。这些系统表明多智能体协调改善了单内核结果,但所有系统都在单层内运作:通过局部微基准测试的内核可能由于布局冲突或分发交互(仅在端到端负载下显现)导致服务器级回归(第4.4节([https://arxiv.org/html/2606.12563#S4.SS4.SSS0.Px2))。](https://arxiv.org/html/2606.12563#S4.SS4.SSS0.Px2))。)

#### 多智能体软件系统。

ChatDev(Qian 等人,2024([https://arxiv.org/html/2606.12563#bib.bib25)](https://arxiv.org/html/2606.12563#bib.bib25)) 和 MetaGPT(Hong 等人,2024([https://arxiv.org/html/2606.12563#bib.bib26)](https://arxiv.org/html/2606.12563#bib.bib26)) 将智能体组织为软件开发中的互补角色。Yu 和 Ren (2026)([https://arxiv.org/html/2606.12563#bib.bib28)](https://arxiv.org/html/2606.12563#bib.bib28)) 将专门智能体分配给百万行 EDA 代码库中不重叠的子系统。Arbor 的不同之处在于,优化是深度优先树搜索,具有动态扩展——每个结果都会生成带评分的子操作,并通过重新分析发现新瓶颈——并且智能体按认知功能(驱动优化、执行领域干预、保障稳定性)而不是按代码区域组织,从而能够在单次循环迭代内进行跨层诊断。

## 3 方法

我们将全栈优化形式化为在动态扩展的动作空间上的启发式树搜索(§3.1),描述搜索过程及其强制的不变性(§3.2),介绍一种多智能体架构,其中领域专家在运行时动态构建而非作为固定智能体维护(§3.3),并引入一个支持跨会话迁移的持久知识库(§3.4)。

### 3.1 问题形式化

我们将优化建模为在树 \(\mathcal{T} = (V, E)\) 上的搜索,其根节点为分析后的基线。每个节点代表一个动作及其结果:保留、回滚或崩溃。从根到任一节点的路径定义了产生当前配置的累积干预序列。在时间 \(t\) 的搜索状态 \(\mathcal{S}_t\) 包括树、等待尝试的候选动作评分队列、已完成动作的历史(附有结果和诊断注释),以及智能体间当前的工作分配。树动态扩展:成功动作后的分析会揭示之前不可见的瓶颈,生成初始化时不存在的新分支。

### 3.2 启发式树搜索

#### 搜索循环。

Orchestrator 在评分的动作树上执行深度优先循环。每次迭代如下进行:(1) 分析当前系统状态,识别瓶颈及其 GPU 时间占比;(2) 使用启发式 \(h(a)\) 对所有候选动作评分,并选择评分最高的动作;(3) 将动作分派给适当的 Domain Specialist 进行实现;(4) 对返回的结果进行准确性验证和端到端基准测试;(5) 根据结果更新树——保留的动作成为后续分析的新基线,回滚的动作记录诊断注释,崩溃的动作触发 Critic 根因分析;(6) 重新对剩余候选动作评分,因为瓶颈分布可能已变化。循环持续直到动作评分低于阈值或达到挂钟时间预算。任何回滚或崩溃后自动回溯到最后一个已验证状态,确保系统在尝试下一个动作前始终处于已知良好的配置。

#### 评分。

每个候选动作 \(a\) 通过平衡预期收益与成本及风险的启发式进行评分,并带有探索奖励:

\[
h(a) = \frac{g(a)}{c(a)} \cdot (1 - r_{\text{acc}}) \cdot (1 - r_{\text{crash}}) \cdot m_{\text{gap}} + C \sqrt{\frac{\ln N}{1 + n_{\text{cat}}}}
\]

其中 \(g(a)\) 是预期收益,估算为目标内核分析得出的 GPU 时间占比与类别特定的加速先验的乘积。当知识库(§3.4)包含相关历史时,先验从类似模型和硬件上相似动作的记录结果中提取;否则,Orchestrator 根据分析上下文和其自身在活动期间积累的经验进行估计。\(c(a)\) 是估计的挂钟时间成本,考虑了实现更改、重启推理服务器以及在目标模型上运行端到端基准测试所需的实际时间。\(r_{\text{acc}}\) 和 \(r_{\text{crash}}\) 是该动作类别的经验失败率,从知识库先验初始化(可用时),并在活动进行中根据每个观察到的结果进行细化。\(m_{\text{gap}}\) 是一个紧迫性乘数,随与吞吐量目标的剩余差距而缩放(当目标达成时为 1.0,差距大时最高达 2.0)。UCB 风格的第二项鼓励探索采样不足的动作类别:\(N\) 是已评估的动作总数,\(n_{\text{cat}}\) 是同一类别的尝试次数,\(C\) 是常数。所有项在每次动作后更新:重新分析修正 \(g(a)\)(因为瓶颈变化),结果更新 \(r_{\text{acc}}\) 和 \(r_{\text{crash}}\),树定期重新评分。由于评分惩罚高成本、高风险的动作,搜索自然会在进行需要专业精化的深度更改之前,先耗尽可能的上层堆栈干预——这种转变是通过经验性的重新分析检测到的,而非事先指定。

相似文章

通过假设树优化实现通用自主研究

Hugging Face Daily Papers

Arbor是一个用于自主科学研究的AI框架,它使用协调器、执行器和一个持久的假设树,在多个领域迭代改进研究成果,在六个真实研究任务上取得了强劲的成果。

@_akhaliq: 论文:

X AI KOLs Following

一篇论文介绍了Arbor,这是一种AI框架,通过结合策略协调、隔离假设测试和持久知识树,实现跨多个领域的自主科学研究,并迭代改进研究成果。

ARBOR:通过可复用评分缓存为搜索代理提供在线过程奖励

arXiv cs.CL

ARBOR 引入了一种可复用的评分缓存,为基于LLM的搜索代理提供在线过程奖励,在仅依赖结果奖励不足时提升训练效率。它在多跳问答基准测试中优于 GRPO 和 DAPO,将多达42%的零梯度训练组转化为信息丰富的训练组。