ARIADNE：推理时适配器动态选择的无关路由

arXiv cs.AI 2026/06/18 04:00 论文

peft adapter-routing inference-time model-selection llm parameter-efficient-fine-tuning routing

摘要

提出ARIADNE，一种无需训练、适配器无关的路由框架，通过在嵌入空间中测量输入与适配器特定质心的接近度，在推理时选择最优的PEFT适配器，在23个任务上恢复了97.44%的上限性能。

arXiv:2606.19079v1 Announce Type: new 摘要：参数高效微调（PEFT）的日益部署导致了模型生态系统，其中单个骨干网络与许多任务专用适配器配对。在此设置中，推理时查询通常没有任务标签，因此系统需要从不断增长且异构的适配器池中自动选择最合适的适配器。现有的路由方法要么依赖于对适配器内部（如权重分解或基于梯度的统计信息）的访问，要么需要额外的路由器训练，这限制了随着新适配器添加的可扩展性和可移植性。我们提出ARIADNE，一种无需训练、适配器无关的路由框架，用于推理时的动态适配器选择。ARIADNE通过一组从训练集嵌入计算得到的质心来表示每个适配器，捕获与该适配器相关的数据分布。给定无标签输入，它通过测量在潜在空间中与这些质心的接近度来选择适配器。由于路由完全在输入嵌入空间中执行，ARIADNE兼容任意PEFT方法，并且无需修改适配器或训练过程。主要使用Llama 3.2 1B Instruct在23个多样化的NLP任务上评估，ARIADNE恢复了97.44%的上限性能。扩展到44个任务，它实现了89.7%的平均选择准确率，无需额外训练或访问适配器内部。

查看原文

查看缓存全文

缓存时间: 2026/06/18 05:41

# ARIADNE: 推理时适配器动态选择的无关路由
来源：https://arxiv.org/html/2606.19079
Enrico Cassano¹,², Michał Brzozowski², Zuzanna Dubanowska², Paolo Mandica², Neo Christopher Chung² ¹都灵大学, ²三星AI中心, 波兰华沙 通讯作者：[email protected]

###### 摘要

参数高效微调（PEFT）的日益普及催生了模型生态系统，其中单个主干网络与多个任务专用适配器配对。在此场景下，推理时的查询通常不携带任务标签，系统需要从不断增长且异构的适配器池中自动选择最合适的适配器。现有的路由方法要么依赖对适配器内部结构的访问（如权重分解或基于梯度的统计数据），要么需要额外训练路由器，这限制了随着新适配器添加时的可扩展性和可移植性。我们提出 ARIADNE，一种无训练、与适配器无关的路由框架，用于推理时的动态适配器选择。ARIADNE 通过从其训练集的嵌入中计算一组质心来表示每个适配器，从而捕获与该适配器相关的数据分布。给定一个未标记的输入，它通过测量输入在潜在空间中与这些质心的接近程度来选择适配器。由于路由完全在输入嵌入空间中进行，ARIADNE 与任意 PEFT 方法兼容，且无需修改适配器或训练过程。主要使用 Llama 3.2 1B Instruct 在 23 个不同的 NLP 任务上进行评估，ARIADNE 恢复了 97.44% 的上界性能。扩展到 44 个任务时，它在无需额外训练或访问适配器内部结构的情况下，实现了 89.7% 的平均选择准确率。

ARIADNE: 推理时适配器动态选择的无关路由

## 1 引言

参照图注图 1：ARIADNE 与谱路由方法 Arrow 和 SpectR 在适配器选择准确率上的比较。ARIADNE 在所有任务上均持续优于两者。参数高效微调（PEFT）方法的普及从根本上改变了语言模型适配的格局。从业者不再端到端地微调单一模型，而是维护不断增长的轻量级适配器库 (Hu et al., 2022 (https://arxiv.org/html/2606.19079#bib.bib12); Houlsby et al., 2019 (https://arxiv.org/html/2606.19079#bib.bib13))，每个适配器将共享的主干网络专门用于特定任务或领域。这种模块化范式在存储、计算和组合性方面具有显著优势。然而，它也引入了一个关键挑战：给定一个没有任务标签的输入和一个包含 n 个专用适配器的库，如何在不增加额外训练、标记数据或特权访问适配器内部结构开销的情况下，选择最合适的适配器？

现有的路由方法大致可分为两类。第一类采用基于检索的机制，在标记的任务数据上训练。LoraRetriever (Zhao et al., 2024 (https://arxiv.org/html/2606.19079#bib.bib8)) 通过对比学习微调句子嵌入模型，使输入与适配器表示对齐，实现了强性能，但需要额外的监督训练阶段和对每个适配器训练分布的访问。第二类方法使用谱路由，直接从适配器权重中导出路由信号。代表性例子包括 Arrow (Ostapenko et al., 2024 (https://arxiv.org/html/2606.19079#bib.bib11)) 和 SpectR (Fleshman and Van Durme, 2025 (https://arxiv.org/html/2606.19079#bib.bib32))，它们从每个 LoRA 权重矩阵的 SVD 构建原型，并根据这些原型与模型隐藏状态之间的对齐程度分配输入。尽管这些方法以零样本方式运行，但它们严格围绕 LoRA 公式设计，不能自然地推广到其他 PEFT 方法 (Kopiczko et al., 2023 (https://arxiv.org/html/2606.19079#bib.bib16); Liu et al., 2024 (https://arxiv.org/html/2606.19079#bib.bib17))。此外，实证结果表明，当适配器相似时，这些方法表现不佳，Arrow 在多个基准上接近随机水平 (Fleshman and Van Durme, 2025 (https://arxiv.org/html/2606.19079#bib.bib32))。

我们提出 ARIADNE（Agnostic Routing for Inference-time Adapter DyNamic sElection，推理时适配器动态选择的无关路由），一种零样本路由框架，用于动态适配器选择，兼容任何 PEFT 架构。核心洞察是将适配器路由视为一个输入分类问题：冻结的、现成的文本编码器的潜在几何结构足以区分任务分布，而无需依赖适配器权重或梯度。来自同一任务的输入会在该空间中自然聚类，使其成为可靠的路由信号。对于每个任务，我们通过对从其训练集中抽取的样本嵌入进行聚类，构建一组 m 个代表性质心。推理时，将输入投影到同一空间，选择其质心集产生最高余弦相似度的适配器。我们在 Llama 3.2 1B Instruct 和 Qwen2.5 3B Instruct 上实例化 ARIADNE，并在 23 个不同的 NLP 任务上进行端到端评估，同时测量适配器选择准确率（SA）和任务性能（TP），并与 Oracle 上界进行比较。ARIADNE 实现了 54.74% 的平均 TP，恢复了平均 Oracle 性能（56.18%）的 97.44%。在与 Arrow 和 SpectR 共享的 5 任务子集上，ARIADNE 在适配器 SA 方面始终优于两个基线。对 44 个任务的扩展可扩展性研究表明，随着适配器库的增长，路由性能保持稳定，达到 89.7% 的平均 SA。

我们的主要贡献是：

- • 我们将适配器路由重新定义为输入分类问题，并提出了一种零样本的基于质心的路由机制，该机制完全在输入嵌入空间中运行。
- • 由于它仅依赖输入空间而非适配器权重分解，ARIADNE 在结构上与任何 PEFT 架构兼容。
- • 我们通过实验证明，仅凭输入几何结构就能为有效的适配器选择提供强信号，在稳健扩展的同时优于谱路由方法。
- • 我们对路由失败模式进行了系统分析，并表明错误集中在语义相关的任务簇内，从而导致优雅退化而非灾难性退化。

## 2 相关工作

参数高效微调。大型预训练语言模型的发展使得完全微调越来越不切实际。参数高效微调（PEFT）方法通过仅更新少量参数同时保持主干网络冻结来解决这个问题 (Houlsby et al., 2019 (https://arxiv.org/html/2606.19079#bib.bib13); Hu et al., 2022 (https://arxiv.org/html/2606.19079#bib.bib12); Li and Liang, 2021 (https://arxiv.org/html/2606.19079#bib.bib14); Liu et al., 2022 (https://arxiv.org/html/2606.19079#bib.bib15))。其中，低秩适配（LoRA）(Hu et al., 2022 (https://arxiv.org/html/2606.19079#bib.bib12)) 已成为主导范式：对于每个权重矩阵 W∈R^(d×k)，它引入一个残差更新 ΔW=BA，其中 B∈R^(d×r)，A∈R^(r×k)，且 r≪min(d,k)，将可训练参数数量减少几个数量级，同时保持有竞争力的下游性能。后续变体包括 VeRA (Kopiczko et al., 2023 (https://arxiv.org/html/2606.19079#bib.bib16))、DoRA (Liu et al., 2024 (https://arxiv.org/html/2606.19079#bib.bib17))、AdaLoRA (Zhang et al., 2023 (https://arxiv.org/html/2606.19079#bib.bib18)) 和 GPart (Mandica et al., 2026 (https://arxiv.org/html/2606.19079#bib.bib35))，进一步提高了参数效率和灵活性。我们的工作不修改或扩展任何特定的 PEFT 方法；相反，它提供了独立于适配器实现的路由。

适配器选择。现有方法在所需资源和假设方面差异很大，范围从训练专用路由组件的方法到完全零样本、无数据的方法。LoRARetriever (Zhao et al., 2024 (https://arxiv.org/html/2606.19079#bib.bib8)) 将适配器选择视为检索和组合问题，但需要在每个适配器的训练数据上训练专用的检索组件，这种昂贵开销是 ARIADNE 完全避免的。与我们的方法更相关的是那些通过利用适配器权重的内部结构来执行零样本路由的方法。ARROW (Ostapenko et al., 2024 (https://arxiv.org/html/2606.19079#bib.bib11)) 使用每个适配器权重乘积矩阵的第一个右奇异向量（通过 SVD 获得）作为其训练分布的代理，而 SpectR (Fleshman and Van Durme, 2025 (https://arxiv.org/html/2606.19079#bib.bib32)) 则通过利用完整的协方差谱扩展了这一思想。这两种方法都需要对适配器内部结构进行白盒访问，并且它们对 LoRA 权重矩阵 SVD 的依赖在架构上将它们绑定到 LoRA 家族，并隐含地绑定到底层基础模型。此外，Fleshman and Van Durme (2025 (https://arxiv.org/html/2606.19079#bib.bib32)) 表明这些谱代理可能不可靠：ARROW 在高度相似的任务对上退化为接近随机的路由准确率，而 SpectR 在相同设置下甚至低于随机阈值。

与 ARROW 和 SpectR 一样，ARIADNE 不需要训练额外的组件。然而，与这些方法不同的是，它完全将路由建立在冻结的、现成编码器的潜在几何结构上，将路由机制与适配器内部结构和底层 PEFT 架构解耦。因此，ARIADNE 与适配器类型和基础模型都无关，使得相同的路由方法可以跨模型家族和规模转移。这一设计进一步受到近期证据的推动，即内部模型表示作为通用路由信号不可靠，谱方法通常在分布外会退化 (Dubanowska et al., 2025 (https://arxiv.org/html/2606.19079#bib.bib31))。

## 3 方法

无适配器访问的路由。ARIADNE 的一个核心设计选择是，路由决策完全基于文本编码器的潜在几何结构，而非适配器内部结构。这种解耦既有原则性又有实用性：适配器权重编码了训练过程的输出，其数据分布和优化轨迹在部署时是不透明的，而权重空间信号不能保证与输入空间中的任务边界对应 (Fleshman and Van Durme, 2025 (https://arxiv.org/html/2606.19079#bib.bib32); Dubanowska et al., 2025 (https://arxiv.org/html/2606.19079#bib.bib31))。通过仅在输入上操作，ARIADNE 提供了谱路由方法无法提供的三个特性：通过设计兼容任何 PEFT 架构；通过简单地从训练样本计算质心即可直接扩展到新任务；独立于底层主干网络，使得相同的路由基础设施可以跨模型家族和规模转移。

问题形式化。令 T={T_1,…,T_n} 表示一组 n 个任务。每个任务 T_i 与一个数据集 D_i={(x_{i,k},y_{i,k})}_{k=1}^{N_i} 关联，其中 N_i 是任务 T_i 中的样本数，x_{i,k} 是第 k 个输入，y_{i,k} 是其对应标签。整个多任务数据集定义为 D=⋃_{i=1}^n D_i。我们考虑一个基础语言模型 L 和一个包含 n 个任务专用适配器的库 Φ={φ_1,…,φ_n}，其中每个 φ_i 针对 T_i 进行了优化。在混合任务场景下，输入 x 被提交给 L 而没有任务标签，目标是选择最适合处理它的适配器。

适配器库。我们在一系列跨四个语义类别的最先进任务上训练 LoRA 适配器。这些适配器对我们的评估至关重要：它们使我们能够在现实条件下端到端地衡量路由质量，并允许我们描述路由失败时发生的情况。任务和训练的详细信息见附录 A.3 (https://arxiv.org/html/2606.19079#A1.SS3)。

动态选择。对于每个任务 T_i，我们使用一组 m 个任务代表性质心 C_i={c_{i,j}}_{j=1}^m 来表示其输入分布，这些质心是在冻结的辅助编码器 e(·) 的嵌入空间中计算的。为了构建这些质心，我们采用不同策略（附录 A.10 (https://arxiv.org/html/2606.19079#A1.SS10)）采样 m 个子集 S_{i,j}⊂D_i，并平均它们输入的嵌入。形式上，对于每个 j∈{1,…,m}，任务 T_i 的第 j 个质心定义为：

c_{i,j}=1/|S_{i,j}| ∑_{(x,y)∈S_{i,j}} e(x). (1)

这种多质心表示比单个全局原型更有效地捕获任务内变异性。在推理时，未标记的输入 x 被嵌入到同一空间，路由函数选择与最相似任务质心相关联的适配器：

i^*=argmax_i (max_{c∈C_i} cos(e(x),c)). (2)

选中的适配器即为 φ_{i∗}。

## 4 实验

| 类别 | SA | 基础模型 | Oracle | ARIADNE | 恢复 % |
|------|-------|-----------|--------|----------|--------|
| NLI | 81% | 23.37% | 60.16% | 58.06% | 96.51% |
| QA | 83% | 22.91% | 51.55% | 49.14% | 95.32% |
| 相似度 | 96% | 19.42% | 66.60% | 65.20% | 97.92% |
| 推理 | 100% | 23.38% | 46.40% | 46.40% | 100.0% |
| 平均 | 85% | 22.27% | 56.18% | 54.74% | 97.44% |

表 1：按语义类别分组的 23 个任务的端到端性能。SA：适配器选择准确率；TP：任务性能；Recoup：相对于 Oracle 恢复的 TP。

设置。我们在 Llama 3.2 1B Instruct (Grattafiori et al., 2024 (https://arxiv.org/html/2606.19079#bib.bib29)) 和 Qwen2.5 3B Instruct (Team, 2024 (https://arxiv.org/html/2606.19079#bib.bib36)) （结果见附录 A.2 (https://arxiv.org/html/2606.19079#A1.SS2)）上评估 ARIADNE。我们使用一个包含 23 个 LoRA 适配器的库，每个适配器独立地在单个任务上训练，涵盖四个语义类别：NLI、QA、相似度和推理，覆盖已建立的基准。冻结的编码器 e(·) 是 intfloat/e5-large-v2 (Wang et al., 2022 (https://arxiv.org/html/2606.19079#bib.bib30))。我们对此选择的动机报告在附录 A.5 (https://arxiv.org/html/2606.19079#A1.SS5) 中。我们的主要结果是使用每个质心最多 500 个样本和质心数量 m=5 计算的。关于训练样本数量的鲁棒性研究在附录 A.9 (https://arxiv.org/html/2606.19079#A1.SS9) 中，m 值的选择在附录 A.6 (https://arxiv.org/html/2606.19079#A1.SS6) 中。

与谱路由的比较。我们在跨评估共享的 5 个任务交集（HellaSwag (Zellers et al., 2019 (https://arxiv.org/html/2606.19079#bib.bib37))、MNLI (Williams et al., 2018 (https://arxiv.org/html/2606.19079#bib.bib38))、MRPC (Wang et al., 2018 (https://arxiv.org/html/2606.19079#bib.bib34))、QQP (Wang et al., 2018 (https://arxiv.org/html/2606.19079#bib.bib34))、SST-2 (Socher et al., 2013 (https://arxiv.org/html/2606.19079#bib.bib39))）上，将适配器 SA 与 Arrow (Ostapenko et al., 2024 (https://arxiv.org/html/2606.19079#bib.bib11)) 和 SpectR (Fleshman and Van Durme, 2025 (https://arxiv.org/html/2606.19079#bib.bib32)) 进行比较。

适配器选择与端到端性能。对于每个 t

ARIADNE：推理时适配器动态选择的无关路由

相似文章

PreFT：仅预填充微调以实现高效推理

TimeRouter：高效自适应的时间序列基础模型路由

从早期经验中学习智能体路由

INAR-VL: 面向边缘-云端视觉语言推理的输入感知路由

基于注意力折扣的自适应采样器用于掩码扩散语言模型

提交意见反馈