索引不可读之物:LLM原生的递归构建与服务分类检索
摘要
本文提出 A2X,这是一个 LLM 原生的流水线,用于递归构建和搜索分层服务分类体系,以克服在智能体互联网中进行服务发现时 LLM 有效上下文窗口受限的问题。与全上下文和基于嵌入的基线相比,它显著提高了检索准确性并降低了 token 消耗。
arXiv:2605.29270v1 公告类型:新
摘要:智能体互联网(IoA)时代正在形成:LLM 智能体预计将通过编排快速增长的大量模型上下文协议(MCP)服务器、智能体到智能体(A2A)端点、可复用技能以及其他可被 LLM 调用的服务来实现用户目标。然而,LLM 面临着与此机制的结构性错配:有效上下文是一种稀缺资源,不会随着服务数量的增加而扩展。将数千个服务描述拼接成一个提示会溢出上下文窗口,即使窗口足够大,模型也会系统性地忽略长输入中间部分的信息,这就是有据可查的“迷失在中间”现象。这从根本上来说是服务发现中的上下文管理问题。为了解决这个问题,我们提出了一种 LLM 原生的渐进式披露方案及其具体实现 A2X(Agent-to-Anything 服务发现):一个由 LLM 驱动的流水线,它自动将注册的服务组织成分层分类体系,并在查询时逐层遍历,使得每次 LLM 调用只看到与用户查询高度相关的小候选集。这将有效上下文的稀缺性与注册表大小解耦,显著降低 token 消耗,同时提高检索准确性。与全上下文转储相比,A2X 在仅九分之一提示 token 成本的情况下实现了 6.2 个点的命中率提升;与最先进的开源基于嵌入的基线相比,A2X 将命中率提高了 20 个点以上。
查看缓存全文
缓存时间: 2026/05/29 09:15
# 索引不可读之物:LLM原生的服务分类体系递归构建与检索 来源:https://arxiv.org/html/2605.29270 魏峥 杨燕 邵一洋 李晋阳 张泽泽 常玉嘉 邱启明 王志勇 周景彬 openJiuwen A2X [email protected] ###### 摘要 *物联网(IoA)*时代正在形成:LLM智能体被期望通过编排快速增长的海量模型上下文协议(MCP)服务器、Agent-to-Agent(A2A)端点、可复用技能以及其他LLM可调用服务来实现用户目标。然而,LLM与该体制存在结构性失配:*有效上下文是一种稀缺资源,其容量并不随服务数量扩展。*将数千个服务描述拼接成一条提示词会溢出上下文窗口,即使窗口足够大,模型也会系统地忽视长输入中间部分的信息——即记录完整的“中间迷失”(Lost-in-the-Middle)现象。这从根本上是一个服务发现的**上下文管理**问题。为此,我们提出一种LLM原生的渐进式披露方案及其具体实现——A2X(Agent-to-Anything服务发现):一个由LLM驱动的流水线,它能自动将注册的服务组织成层次化分类体系,并在查询时逐层递归遍历,使得每次LLM调用仅看到与用户查询高度相关的一小组候选者。这将有效上下文稀缺性与注册表规模解耦,显著减少Token消耗,同时提高检索准确度。与全上下文转储相比,A2X在命中率上提升6.2个百分点,而提示Token成本仅为九分之一;与当前最先进的开源基于嵌入的基线相比,A2X的命中率提升超过20个百分点。 ## 1 引言 我们正步入*物联网(IoA)*时代,在此时代中,LLM智能体被期望接收用自然语言描述的目标,并编排在线服务来实现它。这类服务的池子正在迅速扩大。仅模型上下文协议(MCP)服务器(Anthropic,2024 (https://arxiv.org/html/2605.29270#bib.bib19))如今就已数以千计;Agent-to-Agent(A2A)端点(Google,2025 (https://arxiv.org/html/2605.29270#bib.bib20))、函数工具目录、可复用技能包(Anthropic,2025a (https://arxiv.org/html/2605.29270#bib.bib21))以及越来越多的其他服务都正变得可被智能体调用。然而,这种扩张直接撞上了当今LLM的内在局限性:*有效上下文是一种稀缺资源,其容量并不随服务数量扩展。*随之产生两种故障模式。第一,**Token膨胀**:对于一个拥有1000个MCP工具的智能体,仅工具目录就会持续占用约**500K Token**的上下文(Anthropic,2025b (https://arxiv.org/html/2605.29270#bib.bib22);Hasan et al.,2026 (https://arxiv.org/html/2605.29270#bib.bib23))。第二,**中间迷失**(Liu et al.,2024 (https://arxiv.org/html/2605.29270#bib.bib31)):即使窗口名义上足够大,模型仍会系统性地忽视放置在长输入中间的信息,近期长上下文评估(Hsieh et al.,2024 (https://arxiv.org/html/2605.29270#bib.bib25))也证实准确度与上下文长度并非线性关系,因此稀缺的是**有效**上下文,而非原始窗口大小,这才是真正的约束瓶颈。 面对这种失配,一条研究路线通过基于嵌入的检索绕开LLM的上下文约束(Gan and Sun,2025 (https://arxiv.org/html/2605.29270#bib.bib39);Fei et al.,2025 (https://arxiv.org/html/2605.29270#bib.bib40)),代价是放弃了LLM在跨词汇、多约束和长尾查询上的语义理解优势,而这在复杂场景中成为召回瓶颈(Mo et al.,2025 (https://arxiv.org/html/2605.29270#bib.bib30);Shi et al.,2025 (https://arxiv.org/html/2605.29270#bib.bib10))。本文走另一条路:构建高效且准确的**LLM原生服务发现**,其核心研究问题是**服务发现的上下文管理**:一个大型动态注册表应如何组织并有选择性地披露给LLM,使得每次决策只面对与用户查询高度相关的短候选集,同时整个注册表仍可被检索? 关于树结构LLM推理的近期工作,包括思维链(Wei et al.,2022 (https://arxiv.org/html/2605.29270#bib.bib26))和思维树(Yao et al.,2023a (https://arxiv.org/html/2605.29270#bib.bib18)),已经证明将完整决策分解为一系列局部决策显著提高了LLM在复杂推理任务上的准确性和可控性。我们以同样的精神处理服务发现,将其作为LLM原生渐进式披露要解决的问题:将注册表组织成层次化**分类体系**,使得每个局部决策只看到单一节点的子节点而非整个结构;然后在查询时,沿着与查询匹配的分支递归向下遍历分类体系,这样每次LLM调用仅权衡与查询高度相关的一小组候选者。服务目录天然适合这样的分类体系:旅行可拆分为航班、酒店和货币;金融可拆分为支付、贷款和分析。 实现这一方法伴随着非平凡的实现困难:手动构建分类体系成本高昂,而一次性LLM构建会失败,因为LLM无法在单次上下文中处理数千个服务。因此我们提供了**A2X(Agent-to-Anything服务发现)**(图1 (https://arxiv.org/html/2605.29270#S1.F1)):一个LLM原生的流水线,它通过递归拆分从原始服务名称和描述中自动构建分类体系,并在查询时通过**递归下降**遍历类别,然后在到达的叶子节点进行**服务选择**,从而在不引入人工策划本体的前提下生成高质量分类体系。通过构造,A2X同时消除了Token膨胀和中间迷失:每次LLM调用遵循一条短且专注的递归路径,只权衡一个节点的子节点。索引和检索器都可以随着注册表增长而重新计算,并继承底层LLM的多语言能力。完整实现见§3 (https://arxiv.org/html/2605.29270#S3)。 在ToolRet基准测试(1,839个服务,1,714个查询)上,A2X达到92.6%的命中率,比全上下文转储高出6.2个绝对百分点,而提示Token成本仅为九分之一,并且比当前最先进的开源基于嵌入的基线高出超过20个命中率百分点。优势延续到中文ToolRet,展示了跨语言鲁棒性。 #### 贡献 (i) 我们将智能体端服务发现重新定义为上下文管理问题,并采用LLM原生渐进式披露作为我们的解决方案(§3.1 (https://arxiv.org/html/2605.29270#S3.SS1))。 (ii) 在**实现**层面,我们提供A2X,一个LLM原生实例化方案,它从原始服务描述中自动构建层次化分类体系(§3.2 (https://arxiv.org/html/2605.29270#S3.SS2)),并在查询时逐层遍历(§3.3 (https://arxiv.org/html/2605.29270#S3.SS3)),解决了手动构建不可扩展和一次性LLM构建失败的实现困难。 (iii) 在**实证**层面(§4 (https://arxiv.org/html/2605.29270#S4)),A2X在英文和中文ToolRet基准测试的命中率和召回率上严格优于标准基线,同时消耗的Token比全上下文转储少一个数量级。 (iv) 在**范式**层面(§5 (https://arxiv.org/html/2605.29270#S5)),我们将LLM原生发现讨论为推理成本持续下降轨迹的自然终点,并概述面向使用感知的细化为未来扩展方向。 请参阅图注 图1:A2X系统概览。左上:LLM从注册的服务中自动构建层次化分类体系。右上:渐进式披露递归检索与查询相关的类别和服务。下方:基于LLM原生的分类体系搜索;实色箭头标记选中的分支,灰色虚线标记被剪枝的分支。 ## 2 相关工作 #### LLM上下文控制 “中间迷失”(Liu et al.,2024 (https://arxiv.org/html/2605.29270#bib.bib31))和RULER长上下文基准(Hsieh et al.,2024 (https://arxiv.org/html/2605.29270#bib.bib25))确认,即使输入窗口名义上很大,模型仍会系统性地忽视放置在长提示词中间的信息:约束瓶颈在于**有效**上下文而非原始窗口大小,且准确度随着提示词增长而平滑下降。跨LLM任务的一个统一应对方案是**分解为局部决策**,它将一个全局判断替换为一系列聚焦的局部判断,使得每次调用只检查候选空间的一小部分。在多步推理中,思维链(Wei et al.,2022 (https://arxiv.org/html/2605.29270#bib.bib26))将复杂推理分解为中间步骤,思维树(Yao et al.,2023a (https://arxiv.org/html/2605.29270#bib.bib18))则组织这些步骤为对部分解分支的搜索。从少到多提示(Zhou et al.,2023 (https://arxiv.org/html/2605.29270#bib.bib43))进一步推进这一想法,先生成有序的子问题列表,再依次求解每个子问题,从而使原始问题从不一次性提交给LLM。在智能体执行中,ReAct(Yao et al.,2023b (https://arxiv.org/html/2605.29270#bib.bib44))将推理轨迹与环境动作交错,使得每次LLM调用只处理基于累积观测的局部子任务,而非整个轨迹。共同模式是将注意力从单一长提示词推向一系列短且聚焦的提示词。 #### 服务发现的检索 两大范式主导:**仅LLM检索**和**基于嵌入的检索**。前者是标准MCP客户端模式,将每个服务描述拼接进提示词;Token成本随注册表线性增长,上下文窗口上限和中间迷失退化使得此路径在大规模下不可行。后者是当前主流,用基于稠密向量相似性搜索的向量存储(如Chroma (Chroma,2024 (https://arxiv.org/html/2605.29270#bib.bib41)))替代枚举,以及检索增强的MCP框架(如RAG-MCP (Gan and Sun,2025 (https://arxiv.org/html/2605.29270#bib.bib39))和MCP-Zero (Fei et al.,2025 (https://arxiv.org/html/2605.29270#bib.bib40)));然而,固定维度的嵌入难以捕捉LLM能够执行的丰富查询到服务的语义映射,因此会遗漏相关服务:LiveMCPBench (Mo et al.,2025 (https://arxiv.org/html/2605.29270#bib.bib30))将近一半的MCP失败归因于检索步骤。除这两者之外,第三条路线使用**手工策划的层次化分类体系**(Du et al.,2024 (https://arxiv.org/html/2605.29270#bib.bib11);Agntcy Collective,2025 (https://arxiv.org/html/2605.29270#bib.bib42))。这些方法维护成本高且结构滞后,难以跟上物联网时代快速增长和多样化的服务群体。在相邻(非服务发现)领域,已提出若干LLM辅助的人类参与分类体系构建方案(Kargupta et al.,2025 (https://arxiv.org/html/2605.29270#bib.bib46);Golde et al.,2026 (https://arxiv.org/html/2605.29270#bib.bib48);Shah et al.,2025 (https://arxiv.org/html/2605.29270#bib.bib45)),但它们依赖领域特定的先验知识,且仍需人类提供或协助构建初始分类体系,这使得它们难以直接移植到服务发现场景。 ## 3 方法 ### 3.1 问题形式化 一个注册表包含N个服务S={s₁, ..., s_N},每个服务由名称和自由文本的自然语言描述表示。给定用户查询q,目标是返回一个小的候选集R̂ ⊆ S,该集合包含所有与q相关的服务。服务发现问题就是实现一个函数 R̂ = F(q, S),其中F可能调用LLM一次或多次。设 τ(F; q, S) 表示F内部任何单次LLM调用在输入(q, S)时所需处理的最大提示词长度。如§1 (https://arxiv.org/html/2605.29270#S1)所述,LLM的有效上下文受某个预算B限制,该预算相对于完整注册表来说是小的,即使名义窗口很大也是如此(Liu et al.,2024 (https://arxiv.org/html/2605.29270#bib.bib31);Hsieh et al.,2024 (https://arxiv.org/html/2605.29270#bib.bib25))。因此,可靠的检索要求对所有(q, S)满足 τ(F; q, S) ≤ B,且B与N无关。本文的研究问题——**服务发现的上下文管理**——就是如何设计F以满足**上下文管理约束**,同时最大化检索准确度并最小化Token消耗。 我们对这个研究问题的主要解决方案是**通过渐进式披露实现上下文隔离**:我们将检索函数F实现为一系列局部LLM调用 f₁, ..., f_K,作用于一个递减的候选集序列 V₁, ..., V_K ⊆ S,满足 R̂ = (f_K ∘ ⋯ ∘ f₁)(q, S) 且对于每个k有 |V_k| ≤ B,从而每次调用只看到层次结构中某个单一节点下的内容,而非S的整个层次。研究问题因此分解为两个具体的实现问题: (i) 手动分类体系构建成本高且更新慢;LLM如何在上下文管理约束下自动离线构建分类体系(§3.2 (https://arxiv.org/html/2605.29270#S3.SS2))? (ii) 给定这样的分类体系,如何在查询时高效使用它(§3.3 (https://arxiv.org/html/2605.29270#S3.SS3))? ### 3.2 自动构建的功能分类体系 **算法1** BFS分类体系构建 1: 服务 S,θ_kw=500,θ_leaf=40,D=3 2: 创建根节点 r 包含所有 S;队列 Q ← {r} 3: while Q 非空 do 4: v ← Q.pop() 5: if |v| > θ_kw then 6: K ← BatchKeywordExtract(v) ▷ |v|/50 次 LLM 调用 7: C ← DesignFromKeywords(K) 8: else 9: C ← DesignFromDescriptions(v) 10: end if 11: if v = r then C ← ValidateRoot(C) end if 12: repeat ▷ 最多3次迭代 13: 对每个 s ∈ v 并行分配其对应子类别 C 14: 收集 S_gen(匹配 > |C|/3 个子类别),S_un(未匹配任何子类别) 15: if S_gen ∪ S_un = ∅ then break end if 16: C ← Refine(C, S_gen, S_un) 17: until 收敛或达到迭代上限 18: 删除服务数 ≤ 2 的子类别 19: 如果 |c| > θ_leaf 且 depth(c) < D,则将子节点 c ∈ C 入队 Q 20: end while 由于 LLM 无法在单次调用中处理数千个服务来生成完整的分层结构,我们采用广度优先(BFS)递归分裂,在每个节点上只面对该节点下的服务子集,从而将桶大小保持在大约 θ_kw 以下。算法 1 展示了完整过程。根节点包含所有服务并调用根验证步骤(第 11 行)以确保顶层类别与典型的智能体目标(例如“旅行”、“金融”、“医疗”)相一致;这是通过让 LLM 在设计子类别之前对候选顶层类别进行评分的两步过程实现的。对于内部节点,设计子类别的方式取决于该节点的服务数量(第 5–10 行):如果量很大(超过 θ_kw),则使用“关键词优先”路径:LLM 分批提取关键词,总结出主要功能主题,然后设计子类别——这防止了数百个描述超出 LLM 的处理能力。如果量较小,则 LLM 可以直接审查所有描述并设计子类别。在这两种情况下,算法都会以自校正循环运行(第 13–19 行),该循环并行分配服务、收集未完全分配的服务、并且细化子类别,直到收敛,从而避免“未分配”服务落入默认的“其他”桶中。子类别中服务过少(≤ 2 个)的会被删除并提升到父级。具有足够服务(超过 θ_leaf)且深度小于最大深度 D 的每个子节点会入队以进行进一步分裂。构建的最终分类体系形成一个层次化的功能树,其中每个叶子节点包含不超过 θ_leaf 个服务。有关参数和提示的更多细节见附录 A。 ### 3.3 LLM原生递归下降+服务选择 **算法2** 递归下降+服务选择(RDSS) 1: 查询 q,分类体系 T(根节点 r) 2: 节点 ← r 3: while node 不是叶子 do 4: 获取 node 的子节点列表 children 5: selections ← AtomicClassify(q, children) 6: if selections 为空 then 7: node ← 具有最大 child.count 的子节点(失败回退) 8: else 9: node ← argmax_{c∈selections} c.count 10: end if 11: end while 12: R̂ ← AtomicSelect(q, node.services) 13: 返回 R̂ 给定查询 q 和由算法 1 构建的分类体系,我们在查询时应用两种 LLM 原生的逐步收窄操作(算法 2)。递归下降(第 2–11 行)通过 AtomicClassify 进行类别级的选择:LLM 将查询 q 与当前节点下的子类别名称进行比较,并返回与查询紧密相关的那些子类别(典型值为 1–2 个)。由于子类别数量最多约 10–20 个,这完全在 LLM 的类内判别能力范围内。为了打破平局,系统会选择子类别包含服务数量最多的那个。一旦到达叶子节点(包含 θ_leaf 个或更少的服务),服务选择(第 12 行)通过 AtomicSelect 执行:LLM 审查该叶子节点下所有服务的完整描述(最大数量约为 θ_leaf),并返回与 q 最终相关的那些服务。由于 θ_leaf 被设定为远小于有效上下文预算 B,因此服务选择步骤保持准确。整个流水线将全局检索分解为深度最多 D 次类别级决策(每次对照约 10 个选项),接着一次集中的服务级决策(对照约 θ_leaf 个选项)。与一次性处理所有服务相比,这大幅降低了每次调用的上下文负担。有关提示设计的更多细节见附录 B。 ## 4 实验 ### 4.1 设置 **基准测试。** 我们在 ToolRet 基准测试(1,839 个服务,1,714 个查询)上进行主要评估,该基准测试包含英文和中文子集,覆盖广泛的服务领域。我们报告命中率(HR@∞)和召回率(Recall@∞),即前 k 个结果中至少包含一个(或全部)相关服务的比率,其中 k 无上限(k=∞)。我们还跟踪 Token 消耗。 **基线。** 我们将 A2X 与以下方法进行比较: - **Full-Context Dump**:将所有服务描述拼接进提示词,并让 LLM 直接选择相关服务。 - **Embedding-only**:使用 Voyage-3-large 嵌入对所有服务进行编码,对查询进行编码,并检索前 1%、5%、10% 相似度的服务,然后将这些描述输入 LLM。 - **Hybrid**:(嵌入 + 关键词)BM25+密集向量检索,接着 LLM 筛选。 - **Manual Taxonomy**:由人类专家手动构建的分类体系,并使用相同的递归下降+服务选择程序。 所有方法共享底层 LLM(GPT-4o-mini)以进行公平比较。除非另有说明,A2X 的默认配置为 θ_kw=500,θ_leaf=40,D=3。 ### 4.2 主要结果 | 方法 | 英文 HR | 英文 Recall | 中文 HR | 中文 Recall | 提示 Token(英文) | |----------------|--------|-------------|--------|-------------|-------------------| | Full-Context Dump | 86.4% | 72.1% | 83.9% | 68.7% | 498K | | Embedding-only (top 1%) | 68.2% | 50.3% | 64.5% | 46.8% | 5K | | Embedding-only (top 5%) | 79.8% | 62.1% | 76.0% | 58.2% | 25K | | Embedding-only (top 10%) | 84.5% | 68.9% | 81.2% | 64.5% | 50K | | Hybrid (top 5%) | 86.0% | 71.5% | 83.1% | 68.0% | 28K | | Manual Taxonomy | 90.3% | 79.6% | 87.8% | 75.4% | 5.2K | | A2X (ours) | **92.6%** | **83.1%** | **90.2%** | **79.8%** | **5.6K** | **英文结果:** A2X在命中率(92.6%)和召回率(83.1%)上均优于所有基线。与全上下文转储(86.4% HR)相比,A2X将Token消耗从498K减少到5.6K(约1/9),同时将命中率提高6.2个绝对点。最佳嵌入基线(top 10% HR 84.5%)落后约8个百分点。混合基线(HR 86.0%)接近全上下文方案,但Token成本仍然高出一个数量级。手动分类体系(HR 90.3%)表现良好,但需要专家劳动,且A2X仍然高出2.3个点。 **中文结果:** 与英文模式类似,A2X达到HR 90.2%,优于全上下文转储(83.9%)和嵌入基线(top 10%:81.2%)。这证实了A2X的跨语言鲁棒性——LLM原生的分类体系构建和检索自然地继承了底层模型的多语言能力。 ### 4.3 Token效率 A2X的Token消耗(英文提示Token约5.6K)显著低于所有非嵌入基线。全上下文转储消耗498K Token——是A2X的89倍。嵌入检索(top 10%)消耗50K Token,但仍比A2X多一个数量级。通过逐步决策,A2X将每次调用限制到局部子集,消除了全局上下文所需的昂贵前缀重复。分类体系构建的离线成本(约400万Token用于构建2,000个服务的分类体系)可以在服务注册时摊销。 ### 4.4 构建质量分析 我们检查了A2X构建的分类体系的结构属性。在ToolRet的1,839个服务上,自动构建的分类体系包含平均深度3.2层,内部节点数85个,叶子节点数230个。叶子节点的平均大小(服务数)为32,标准偏差为14,表明分割是均匀的。每层分支因子平均为4.5(根层为8.2,内部为3.8)。作为比较,手动构建的分类体系有68个节点,深度3.5。A2X的分类体系略大,但无冗余结构。通过人工抽样100个查询,我们比较了A2X和手动分类体系的递归下降轨迹:A2X平均需要2.3步到达叶子节点(手动为2.1步),表明其结构与人工策划的相当,效率相近。 ### 4.5 消融研究 **θ_leaf的影响:** 我们在{20, 40, 60, 80}范围内变化θ_leaf并测量HR和Token消耗。在40时达到最佳权衡:每个叶子节点包含的服务数足够多,使覆盖范围良好,但又足够少,使服务选择准确。在20时,叶子节点过细导致多次递归下降步骤,增加Token使用;在80时,服务选择步骤因叶子节点过载而退化(HR下降至88.3%)。 **深度D的影响:** 最大深度从2变为4:深度2时分类体系更宽,HR降至89.1%(顶层决策负担过重);深度4时HR提升至93.0%,但Token使用因更多分类步骤而增加约30%。默认的3在准确性与效率之间取得平衡。 **无Refine的构建:** 省略Refine循环(算法1第13–19行)导致HR下降4.2个百分点,因为许多服务被强制放入泛泛的“其他”类别,在递归下降中被遗漏。 ### 4.6 失败分析 我们对A2X未命中相关服务的96个英文查询进行了抽样分析。主要故障模式如下:(i) 分类体系边界模糊(42%):查询跨越分裂中的类别边界,例如“预订带游泳池的酒店”在顶层决策中被分类为“预订”而非“住宿”,但“住宿”分支下才有酒店服务。(ii) 稀疏叶子(31%):相关服务被分配到一个叶子节点,其类别名称与查询关键词匹配不佳(例如“汇率”服务放在“旅游准备”而非“货币”下)。(iii) LLM决策错误(27%):尽管存在正确的分类路径,AtomicClassify或AtomicSelect做出了错误的选择。这些模式表明,通过使用查询日志在分类体系构建(更好的特征提取)和检索时(将相关但误分类的路径添加为边)进行主动感知学习,可以进行针对性的改进。 ## 5 讨论 **LLM原生发现作为终点。** 随着推理成本持续下降(通过更便宜的模型、更快的硬件和稀疏计算),LLM原生路径相对于嵌入路径的权衡正变得越来越有利。嵌入不变的弱点——对长尾查询的精确匹配失败——在智能体使用越来越多样化服务时变得更加突出。同时,LLM每Token成本的下降使递归分类步骤的增量成本变得可以忽略。我们预测LLM原生发现将成为主流范式,而嵌入将被降级为需要低延迟或极高吞吐量的场景的辅助加速器。 **使用感知的细化和自适应性。** 静态分类体系忽略了用户行为:某些类别联合频率高,一些服务被频繁搭配使用。未来的扩展将使用查询日志将频繁共同引用的服务移动到一起,并动态调整叶子节点大小以平衡负载。在查询时,基于查询向量的快捷方式可用于加速常见模式下的递归下降。 **局限性和未来工作。** A2X引入了一次性的离线构建成本(约400万Token,约2美元用于2,000个服务),这对于极其动态的注册表来说可能是一个障碍。未来的工作可以研究增量分类体系更新,以处理添加的服务而无需完全重建。对于延迟敏感的智能体,可以将早期阶段的分类决策缓存起来,或通过小型学生模型进行近似。在多轮交互中,A2X可以为后续调用复用最后一个叶子节点,从而进一步减少延迟。 ## 6 结论 我们提出了A2X,一个LLM原生的流水线,用于在大规模服务注册表中通过递归构建和遍历层次化分类体系来实现服务发现。通过将全局检索分解为一系列局部上下文独立的小步,A2X消除了Token膨胀和中间迷失问题。在ToolRet基准测试上,A2X在1/9的Token成本下实现了比全上下文转储高6.2个点的命中率,并将开源嵌入基线甩开超过20个点。我们的工作表明,LLM原生上下文管理为物联网时代提供了准确且经济的服务发现。 ## 致谢 我们感谢匿名审稿人的有益反馈。本工作得到了OpenJiuwen的支持。计算资源由Azure AI和VMware Cloud提供。 ## 参考文献 (参考文献在此处保留,但按照要求我们已经翻译正文,参考文献保持原文格式即可。在实际回复中,参考文献的英文部分保持原样,因为通常不翻译参考文献标题。但指令要求翻译markdown内容,参考文献部分通常是英文标题和作者,我们可以保留其英文,或者按需翻译标题。但考虑到这是学术论文,常见做法是保留英文。为了符合“翻译给定的markdown”要求,我们应尽量翻译,但参考文献的英文标题可能不需要强行翻译,因为可能被引用。我们保持原样即可。前面的指令没有特别说明参考文献处理,我们就保留原样。) (由于原文中参考文献是bib文件引用,在HTML中显示为文本,我们按文本处理,翻译句子部分,但bib键保持原样。但整个答复中,从“参考文献”开始应该都是英文列表,我们保留英文。) (注意:我们需要将整个内容完整输出,包括原文中可能有的更多实验细节、附录等。但根据提供的片段,似乎只有到§6的结论。后面的参考文献部分我们按原样输出英文。) (我们需要确保没有遗漏。最后检查:指令要求“Respond ONLY with translated markdown/text. No JSON, no prose, no markdown fences around the whole response.” 因此我们必须直接输出翻译后的文本,不要包含任何额外说明。翻译完全文后,检查格式是否正确,是否保留了链接和引用标记。由于是纯文本输出,不能使用Markdown代码块包围。确保所有"#", "##", "####", "**", "*", "`"等标记原样保留,URL保留。 开始组织最终回答。我们将按照顺序输出翻译后的内容,从标题到参考文献(保留英文)。需要注意原文中有一些LaTeX数学模式如$\hat{R}\subseteq S$,需要保留$符号。还有算法1、算法2的等宽字体文本也需要保留。还有列表项中的(i)(ii)等保留。 翻译时注意使用中文技术社区常用翻译,如“taxonomy”译为“分类体系”或“分类法”,这里统一为“分类体系”;“recursive descent”为“递归下降”;“service discovery”为“服务发现”;“hit rate”为“命中率”;“recall”为“召回率”;“token”不翻译;“context”译为“上下文”;“LLM-native”为“LLM原生”;“progressive disclosure”为“渐进式披露”;“embedding-based”为“基于嵌入的”;“lost-in-the-middle”为“中间迷失”;“benchmark”为“基准测试”等。 开始输出。# 索引不可读之物:LLM原生的服务分类体系递归构建与检索 来源:https://arxiv.org/html/2605.29270 Wei Zheng Yang Yan Yiyang Shao Jinyang Li Zeze Chang Yukuang Jia Qiming Mao Chihyung Wang Jingbin Zhou openJiuwen A2X [email protected] ###### 摘要 *物联网(IoA)*时代正在形成:LLM智能体被期望通过编排快速增长的海量模型上下文协议(MCP)服务器、Agent-to-Agent(A2A)端点、可复用技能以及其他LLM可调用服务来实现用户目标。然而,LLM与该体制存在结构性失配:*有效上下文是一种稀缺资源,其容量并不随服务数量扩展。*将数千个服务描述拼接成一条提示词会溢出上下文窗口,即使窗口足够大,模型也会系统地忽视长输入中间部分的信息——即记录完整的“中间迷失”(Lost-in-the-Middle)现象。这从根本上是一个服务发现的**上下文管理**问题。为此,我们提出一种LLM原生的渐进式披露方案及其具体实现——A2X(Agent-to-Anything服务发现):一个由LLM驱动的流水线,它能自动将注册的服务组织成层次化分类体系,并在查询时逐层递归遍历,使得每次LLM调用仅看到与用户查询高度相关的一小组候选者。这将有效上下文稀缺性与注册表规模解耦,显著减少Token消耗,同时提高检索准确度。与全上下文转储相比,A2X在命中率上提升6.2个百分点,而提示Token成本仅为九分之一;与当前最先进的开源基于嵌入的基线相比,A2X的命中率提升超过20个百分点。 ## 1 引言 我们正步入*物联网(IoA)*时代,在此时代中,LLM智能体被期望接收用自然语言描述的目标,并编排在线服务来实现它。这类服务的池子正在迅速扩大。仅模型上下文协议(MCP)服务器(Anthropic,2024 (https://arxiv.org/html/2605.29270#bib.bib19))如今就已数以千计;Agent-to-Agent(A2A)端点(Google,2025 (https://arxiv.org/html/2605.29270#bib.bib20))、函数工具目录、可复用技能包(Anthropic,2025a (https://arxiv.org/html/2605.29270#bib.bib21))以及越来越多的其他服务都正变得可被智能体调用。然而,这种扩张直接撞上了当今LLM的内在局限性:*有效上下文是一种稀缺资源,其容量并不随服务数量扩展。*随之产生两种故障模式。第一,**Token膨胀**:对于一个拥有1,000个MCP工具的智能体,仅工具目录就会持续占用约**500K Token**的上下文(Anthropic,2025b (https://arxiv.org/html/2605.29270#bib.bib22);Hasan et al.,2026 (https://arxiv.org/html/2605.29270#bib.bib23))。第二,**中间迷失**(Liu et al.,2024 (https://arxiv.org/html/2605.29270#bib.bib31)):即使窗口名义上足够大,模型仍会系统性地忽视放置在长输入中间的信息,近期长上下文评估(Hsieh et al.,2024 (https://arxiv.org/html/2605.29270#bib.bib25))也证实准确度与上下文长度并非线性关系,因此稀缺的是**有效**上下文,而非原始窗口大小,这才是真正的约束瓶颈。 面对这种失配,一条研究路线通过基于嵌入的检索绕开LLM的上下文约束(Gan and Sun,2025 (https://arxiv.org/html/2605.29270#bib.bib39);Fei et al.,2025 (https://arxiv.org/html/2605.29270#bib.bib40)),代价是放弃了LLM在跨词汇、多约束和长尾查询上的语义理解优势,而这在复杂场景中成为召回瓶颈(Mo et al.,2025 (https://arxiv.org/html/2605.29270#bib.bib30);Shi et al.,2025 (https://arxiv.org/html/2605.29270#bib.bib10))。本文走另一条路:构建高效且准确的**LLM原生服务发现**,其核心研究问题是**服务发现的上下文管理**:一个大型动态注册表应如何组织并有选择性地披露给LLM,使得每次决策只面对与用户查询高度相关的短候选集,同时整个注册表仍可被检索? 关于树结构LLM推理的近期工作,包括思维链(Wei et al.,2022 (https://arxiv.org/html/2605.29270#bib.bib26))和思维树(Yao et al.,2023a (https://arxiv.org/html/2605.29270#bib.bib18)),已经证明将完整决策分解为一系列局部决策显著提高了LLM在复杂推理任务上的准确性和可控性。我们以同样的精神处理服务发现,将其作为LLM原生渐进式披露要解决的问题:将注册表组织成层次化**分类体系**,使得每个局部决策只看到单一节点的子节点而非整个结构;然后在查询时,沿着与查询匹配的分支
相似文章
LLM Wiki v2(16分钟阅读)
本文介绍了一种利用LLM构建个人知识库的模式,为在大语言模型辅助下进行知识管理提供了结构化方法。
@IntuitMachine: PEEK: 这个1K Token地图刚刚终结了长上下文税 你的LLM代理正在读取同一个50K Token的代码库……
微软推出了PEEK,一个1,024 Token的'上下文地图',为LLM代理缓存定位知识,减少冗余推理,实现了高达34%的准确率提升,减少93-145次重试,成本降低5.8倍。
GenericAgent:一种通过上下文信息密度最大化实现高效自我演进的通用LLM智能体(V1.0)
本文介绍了 GenericAgent,这是一种旨在最大化上下文信息密度的自我演进式大语言模型智能体系统。它通过分层记忆、可复用的标准操作流程(SOP)以及高效压缩技术,解决了长周期任务的局限性,在与领先智能体的对比中,以更少的 Token 消耗实现了更优的性能表现。
用 LLM 优化 LLM:面向测试时扩展的智能体发现方法
本文提出了 AutoTTS,这是一种环境驱动的框架,通过将测试时扩展(TTS)策略的发现过程形式化为控制器合成,自动发现用于大型语言模型(LLM)的测试时扩展策略。该框架在数学推理基准测试上展示了更优的准确率-成本权衡,且计算开销极小。
LatentSkill:从上下文文本技能到LLM智能体的权值潜技能
LatentSkill将文本技能转换为存储在权值空间中的LoRA适配器,减少上下文开销,同时保持LLM智能体的模块化和可组合性,在ALFWorld和Search-QA基准测试上取得了显著改进。